Nvidia reduce los costos de LLM 8x con la nueva base de datos vectorial

Investigadores de Nvidia han desarrollado una nueva técnica para reducir drásticamente las demandas de memoria de los modelos de lenguaje grandes (LLM), lo que podría allanar el camino para una adopción más amplia de la tecnología. El nuevo método, llamado esparcimiento dinámico de memoria (DMS), comprime la caché de valor clave (KV), lo que lleva a una reducción de ocho veces en los costos de los LLM, manteniendo la precisión, según informes.

La técnica DMS permite a los LLM procesar información de manera más eficiente, lo que les permite "pensar" más tiempo y explorar más soluciones sin sacrificar la velocidad o la inteligencia. Esto aborda un cuello de botella computacional significativo que ha obstaculizado la aplicación en el mundo real y la adopción empresarial de los LLM. La innovación podría conducir a soluciones de LLM más accesibles y rentables para diversas aplicaciones.

En noticias relacionadas, el desarrollo de herramientas ligeras continúa apoyando el avance de las tecnologías de IA. Se ha lanzado en GitHub una biblioteca C de solo encabezado llamada "vdb". La biblioteca, creada por abdimoallim, está diseñada para almacenar y buscar incrustaciones vectoriales de alta dimensión. Ofrece características como múltiples métricas de distancia, soporte de multihilo opcional y soporte de asignador de memoria personalizado. La biblioteca es una implementación de un solo archivo, lo que facilita la integración en proyectos.

La biblioteca vdb permite a los desarrolladores construir bases de datos vectoriales, que son cruciales para tareas como la búsqueda de similitud y los sistemas de recomendación. La naturaleza de solo encabezado de la biblioteca simplifica la integración, y sus capacidades de multihilo opcionales pueden mejorar el rendimiento. La biblioteca admite métricas de distancia de coseno, euclidiana y producto escalar.

La combinación de la técnica DMS de Nvidia y la disponibilidad de herramientas como vdb destaca los esfuerzos continuos para optimizar y democratizar la tecnología de IA. Si bien el DMS de Nvidia se centra en reducir el costo computacional de ejecutar LLM, vdb proporciona una solución ligera para administrar incrustaciones vectoriales, un componente central de muchas aplicaciones de IA.