¡Nvidia reduce los costos de LLM 8x con la nueva base de datos vectorial!

Investigadores de Nvidia han desarrollado una nueva técnica, la sparsificación dinámica de memoria (DMS), y una biblioteca C ligera llamada vdb, que juntas han reducido los costos de los modelos de lenguaje grandes (LLM) en un factor de ocho, según múltiples informes. Este avance permite a los LLM procesar más información sin sacrificar la velocidad ni la precisión, lo que podría acelerar las aplicaciones del mundo real y la adopción empresarial.

La técnica DMS comprime la caché de valor clave (KV) dentro de los LLM, reduciendo significativamente sus demandas de memoria. Simultáneamente, se creó la biblioteca vdb para almacenar y buscar eficientemente incrustaciones vectoriales de alta dimensión. Vdb es una biblioteca C de solo encabezado que presenta múltiples métricas de distancia (coseno, euclidiana, producto escalar) y soporte de multihilo opcional. También admite asignadores de memoria personalizados y ofrece enlaces de Python.

Según los informes, el desarrollo de DMS y vdb aborda un importante cuello de botella computacional que ha obstaculizado el uso generalizado de los LLM. La capacidad de "pensar" más tiempo y explorar más soluciones, como resultado de estas innovaciones, es un paso significativo hacia adelante.

La biblioteca vdb, como se describe en el material de origen, es una implementación de un solo archivo, lo que facilita su integración. Sus características incluyen la capacidad de guardar y cargar bases de datos desde y hacia el disco. La biblioteca no tiene dependencias, excepto pthreads cuando el multihilo está habilitado.

Si bien no se proporcionaron fechas específicas para el desarrollo y lanzamiento de estas tecnologías en el material de origen, los informes destacan el impacto potencial en el panorama de los LLM. La combinación de DMS y vdb ofrece una solución prometedora para reducir los costos y mejorar el rendimiento de los LLM, allanando el camino para una adopción más amplia en diversas industrias.