¡Nvidia reduce los costos de LLM 8x con base de datos vectorial!

Investigadores de Nvidia han desarrollado una nueva biblioteca de bases de datos vectoriales, "vdb", y una técnica llamada Sparsificación Dinámica de Memoria (DMS) que, en conjunto, tienen el potencial de reducir los costos de los modelos de lenguaje grandes (LLM) hasta ocho veces, según múltiples informes. Las innovaciones buscan abordar las limitaciones de memoria y mejorar la eficiencia en el manejo de datos complejos dentro de los LLM.

La biblioteca vdb es una biblioteca C ligera, solo de encabezado, diseñada para almacenar y buscar de manera eficiente incrustaciones vectoriales de alta dimensión. Ofrece características como múltiples métricas de distancia (coseno, euclidiana, producto escalar), soporte de multihilo opcional y la capacidad de guardar y cargar bases de datos desde y hacia el disco. La biblioteca no tiene dependencias, excepto pthreads cuando el multihilo está habilitado. También están disponibles enlaces de Python. "vdb es una biblioteca C ligera para almacenar y buscar de manera eficiente incrustaciones vectoriales de alta dimensión", señaló una fuente.

Simultáneamente, los investigadores de Nvidia desarrollaron la Sparsificación Dinámica de Memoria (DMS), una técnica que comprime la caché de clave-valor (KV) en los modelos de lenguaje grandes. Esta compresión permite a los LLM procesar más información sin sacrificar la velocidad. La caché KV es un componente crítico de los LLM, que almacena información sobre las interacciones pasadas del modelo. Al comprimir esta caché, la huella de memoria de los modelos se puede reducir significativamente.

La combinación de DMS y vdb ofrece una solución integral para mejorar la eficiencia y reducir los costos asociados con la ejecución de modelos de lenguaje grandes. El desarrollo de vdb proporciona un método optimizado para manejar incrustaciones vectoriales, mientras que DMS aborda las restricciones de memoria que a menudo limitan el rendimiento de los LLM. "Estas innovaciones abordan las limitaciones de memoria en los modelos de lenguaje grandes y ofrecen una mayor eficiencia en el manejo de datos complejos", afirmó una fuente.

Los detalles exactos de cómo se logran los ahorros de costos y las mejoras específicas de rendimiento aún no están completamente disponibles. Sin embargo, la reducción de costos reportada de ocho veces sugiere un avance significativo en el campo del desarrollo de LLM. Es probable que se realicen más investigaciones y pruebas para comprender completamente el impacto de estas nuevas tecnologías.