Nvidia réduit les coûts des LLM de 8x grâce à une base de données vectorielle !

Des chercheurs de Nvidia ont développé une nouvelle bibliothèque de bases de données vectorielles, "vdb", et une technique appelée Sparsification Dynamique de la Mémoire (SDM) qui, ensemble, pourraient réduire les coûts des grands modèles de langage (LLM) jusqu'à huit fois, selon plusieurs rapports. Ces innovations visent à résoudre les limitations de mémoire et à améliorer l'efficacité du traitement des données complexes au sein des LLM.

La bibliothèque vdb est une bibliothèque C légère, uniquement en-tête, conçue pour stocker et rechercher efficacement des intégrations vectorielles de haute dimension. Elle offre des fonctionnalités telles que plusieurs métriques de distance (cosinus, euclidienne, produit scalaire), une prise en charge optionnelle du multithreading et la possibilité d'enregistrer et de charger des bases de données sur et depuis le disque. La bibliothèque n'a aucune dépendance, sauf pour pthreads lorsque le multithreading est activé. Des liaisons Python sont également disponibles. "vdb est une bibliothèque C légère pour stocker et rechercher efficacement des intégrations vectorielles de haute dimension", a noté une source.

Simultanément, les chercheurs de Nvidia ont développé la Sparsification Dynamique de la Mémoire (SDM), une technique qui compresse le cache clé-valeur (KV) dans les grands modèles de langage. Cette compression permet aux LLM de traiter plus d'informations sans sacrifier la vitesse. Le cache KV est un composant essentiel des LLM, stockant des informations sur les interactions passées du modèle. En compressant ce cache, l'empreinte mémoire des modèles peut être considérablement réduite.

La combinaison de SDM et vdb offre une solution complète pour améliorer l'efficacité et réduire les coûts associés à l'exécution de grands modèles de langage. Le développement de vdb fournit une méthode simplifiée pour gérer les intégrations vectorielles, tandis que SDM aborde les contraintes de mémoire qui limitent souvent les performances des LLM. "Ces innovations résolvent les limitations de mémoire dans les grands modèles de langage et offrent une efficacité améliorée dans le traitement des données complexes", a déclaré une source.

Les détails exacts de la manière dont les économies de coûts sont réalisées et les améliorations de performances spécifiques ne sont pas encore entièrement disponibles. Cependant, la réduction des coûts rapportée d'un facteur huit suggère une avancée significative dans le domaine du développement des LLM. Des recherches et des tests supplémentaires seront probablement menés pour comprendre pleinement l'impact de ces nouvelles technologies.