Nvidia réduit les coûts des LLM de 8x avec une nouvelle base de données vectorielle

Des chercheurs de Nvidia ont développé une nouvelle technique pour réduire considérablement les exigences de mémoire des grands modèles de langage (LLM), ouvrant potentiellement la voie à une adoption plus large de la technologie. La nouvelle méthode, appelée sparsification dynamique de la mémoire (DMS), compresse le cache clé-valeur (KV), ce qui entraîne une réduction par huit des coûts des LLM tout en maintenant la précision, selon les rapports.

La technique DMS permet aux LLM de traiter l'information plus efficacement, leur permettant de "penser" plus longtemps et d'explorer davantage de solutions sans sacrifier la vitesse ou l'intelligence. Ceci répond à un goulot d'étranglement informatique important qui a entravé l'application concrète et l'adoption par les entreprises des LLM. L'innovation pourrait conduire à des solutions LLM plus accessibles et plus rentables pour diverses applications.

Dans les nouvelles connexes, le développement d'outils légers continue de soutenir l'avancement des technologies d'IA. Une bibliothèque C en-tête unique appelée "vdb" a été publiée sur GitHub. La bibliothèque, créée par abdimoallim, est conçue pour stocker et rechercher des intégrations vectorielles de haute dimension. Elle offre des fonctionnalités telles que plusieurs métriques de distance, une prise en charge optionnelle du multithreading et une prise en charge d'allocateur de mémoire personnalisé. La bibliothèque est une implémentation en un seul fichier, ce qui facilite son intégration dans les projets.

La bibliothèque vdb permet aux développeurs de construire des bases de données vectorielles, qui sont cruciales pour des tâches telles que la recherche de similarité et les systèmes de recommandation. La nature en-tête unique de la bibliothèque simplifie l'intégration, et ses capacités de multithreading optionnelles peuvent améliorer les performances. La bibliothèque prend en charge les métriques de distance cosinus, euclidienne et produit scalaire.

La combinaison de la technique DMS de Nvidia et de la disponibilité d'outils comme vdb met en évidence les efforts continus pour optimiser et démocratiser la technologie de l'IA. Alors que la DMS de Nvidia se concentre sur la réduction du coût de calcul de l'exécution des LLM, vdb fournit une solution légère pour la gestion des intégrations vectorielles, un composant essentiel de nombreuses applications d'IA.