Les chercheurs de Nvidia ont développé une nouvelle technique, la sparsification dynamique de la mémoire (DMS), qui a réduit par un facteur de huit les besoins en mémoire des grands modèles de langage (LLM), selon plusieurs rapports. Cette percée, associée au développement d'une bibliothèque C légère appelée vdb, promet de réduire considérablement les goulets d'étranglement computationnels qui entravent l'adoption plus large des LLM dans les applications du monde réel.
La technique DMS compresse le cache clé-valeur (KV), permettant aux LLM de traiter plus d'informations sans sacrifier la vitesse ou la précision, selon les rapports. Cette innovation permet aux LLM de "penser" plus longtemps et d'explorer plus de solutions, surmontant potentiellement un obstacle majeur à l'adoption en entreprise, comme indiqué dans un rapport de VentureBeat.
Simultanément, une bibliothèque C en-tête unique nommée vdb a été créée pour stocker et rechercher efficacement des embeddings vectoriels de haute dimension. Cette bibliothèque, comme détaillé sur Hacker News, offre des fonctionnalités telles que plusieurs métriques de distance (cosinus, euclidienne, produit scalaire), une prise en charge optionnelle du multithreading et la possibilité d'enregistrer et de charger des bases de données sur et depuis le disque. La bibliothèque est conçue pour être légère, sans dépendances, à l'exception de pthreads pour le multithreading.
La bibliothèque vdb est implémentée dans un seul fichier d'en-tête, vdb.h. Son utilisation implique l'inclusion du fichier d'en-tête et la compilation avec un compilateur C. La bibliothèque permet aux utilisateurs de créer une base de données, d'ajouter des vecteurs et de rechercher des vecteurs similaires en utilisant diverses métriques de distance. Des liaisons Python sont également disponibles, comme noté sur Hacker News.
La combinaison de DMS et vdb offre une solution prometteuse pour réduire les coûts et améliorer les performances des LLM. En compressant le cache KV et en fournissant une base de données vectorielle efficace, Nvidia vise à rendre les LLM plus accessibles et pratiques pour un plus large éventail d'applications.
Discussion
AI Experts & Community
Be the first to comment