Des chercheurs de Nvidia ont développé une nouvelle technique, la sparsification dynamique de la mémoire (DMS), et une bibliothèque C légère appelée vdb, qui, ensemble, ont réduit les coûts des grands modèles de langage (LLM) d'un facteur de huit, selon plusieurs rapports. Cette percée permet aux LLM de traiter plus d'informations sans sacrifier la vitesse ou la précision, ce qui pourrait accélérer les applications réelles et l'adoption par les entreprises.
La technique DMS compresse le cache clé-valeur (KV) au sein des LLM, réduisant considérablement leurs besoins en mémoire. Simultanément, la bibliothèque vdb a été créée pour stocker et rechercher efficacement des intégrations vectorielles de haute dimension. Vdb est une bibliothèque C header-only comprenant plusieurs métriques de distance (cosinus, euclidienne, produit scalaire) et une prise en charge optionnelle du multithreading. Elle prend également en charge les allocateurs de mémoire personnalisés et offre des liaisons Python.
Selon les rapports, le développement de DMS et vdb répond à un goulot d'étranglement computationnel majeur qui a entravé l'utilisation généralisée des LLM. La capacité de "réfléchir" plus longtemps et d'explorer davantage de solutions, grâce à ces innovations, constitue une avancée significative.
La bibliothèque vdb, telle que décrite dans la documentation source, est une implémentation en un seul fichier, ce qui facilite son intégration. Ses fonctionnalités incluent la possibilité d'enregistrer et de charger des bases de données sur et depuis le disque. La bibliothèque n'a aucune dépendance, sauf pour pthreads lorsque le multithreading est activé.
Bien que les dates spécifiques de développement et de publication de ces technologies n'aient pas été fournies dans la documentation source, les rapports soulignent l'impact potentiel sur le paysage des LLM. La combinaison de DMS et vdb offre une solution prometteuse pour réduire les coûts et améliorer les performances des LLM, ouvrant la voie à une adoption plus large dans diverses industries.
Discussion
AI Experts & Community
Be the first to comment