Investigadores de Nvidia han desarrollado una nueva técnica, la esparsificación dinámica de memoria (DMS), que ha reducido las necesidades de memoria de los modelos de lenguaje grandes (LLM) en un factor de ocho, según múltiples informes. Este avance, junto con el desarrollo de una biblioteca C ligera llamada vdb, promete reducir significativamente los cuellos de botella computacionales que obstaculizan la adopción más amplia de los LLM en aplicaciones del mundo real.
La técnica DMS comprime la caché de valor clave (KV), lo que permite a los LLM procesar más información sin sacrificar la velocidad ni la precisión, según los informes. Esta innovación permite a los LLM "pensar" más tiempo y explorar más soluciones, superando potencialmente un obstáculo importante en la adopción empresarial, como se afirma en un informe de VentureBeat.
Simultáneamente, se ha creado una biblioteca C de solo encabezado llamada vdb para almacenar y buscar de manera eficiente incrustaciones vectoriales de alta dimensión. Esta biblioteca, como se detalla en Hacker News, ofrece características como múltiples métricas de distancia (coseno, euclidiana, producto escalar), soporte de multihilo opcional y la capacidad de guardar y cargar bases de datos desde y hacia el disco. La biblioteca está diseñada para ser ligera, sin dependencias excepto pthreads para multihilo.
La biblioteca vdb se implementa en un único archivo de encabezado, vdb.h. Su uso implica incluir el archivo de encabezado y compilar con un compilador C. La biblioteca permite a los usuarios crear una base de datos, agregar vectores y buscar vectores similares utilizando varias métricas de distancia. También hay disponibles enlaces de Python, como se señala en Hacker News.
La combinación de DMS y vdb ofrece una solución prometedora para reducir los costos y mejorar el rendimiento de los LLM. Al comprimir la caché KV y proporcionar una base de datos vectorial eficiente, Nvidia pretende hacer que los LLM sean más accesibles y prácticos para una gama más amplia de aplicaciones.
Discussion
AI Experts & Community
Be the first to comment