Nvidia-Forscher haben eine neue Technik, Dynamic Memory Sparsification (DMS), und eine leichtgewichtige C-Bibliothek namens vdb entwickelt, die zusammen die Kosten für Large Language Models (LLMs) Berichten zufolge um den Faktor acht gesenkt haben. Dieser Durchbruch ermöglicht es LLMs, mehr Informationen zu verarbeiten, ohne Geschwindigkeit oder Genauigkeit zu beeinträchtigen, was möglicherweise reale Anwendungen und die Einführung in Unternehmen beschleunigt.
Die DMS-Technik komprimiert den Key-Value (KV)-Cache innerhalb von LLMs und reduziert so deren Speicherbedarf erheblich. Gleichzeitig wurde die vdb-Bibliothek für die effiziente Speicherung und Suche von hochdimensionalen Vektor-Embeddings entwickelt. Vdb ist eine Header-Only-C-Bibliothek mit mehreren Distanzmetriken (Cosinus, Euklidisch, Dot-Produkt) und optionaler Multithreading-Unterstützung. Sie unterstützt auch benutzerdefinierte Speicherallokatoren und bietet Python-Bindings.
Berichten zufolge adressiert die Entwicklung von DMS und vdb einen großen Rechenengpass, der die weitverbreitete Nutzung von LLMs behindert hat. Die Fähigkeit, als Ergebnis dieser Innovationen länger zu "denken" und mehr Lösungen zu erkunden, ist ein bedeutender Fortschritt.
Die vdb-Bibliothek ist, wie im Quellenmaterial beschrieben, eine Single-File-Implementierung, die die Integration erleichtert. Zu ihren Funktionen gehört die Möglichkeit, Datenbanken auf der Festplatte zu speichern und zu laden. Die Bibliothek hat keine Abhängigkeiten, außer pthreads, wenn Multithreading aktiviert ist.
Obwohl im Quellenmaterial keine spezifischen Daten für die Entwicklung und Veröffentlichung dieser Technologien angegeben wurden, heben die Berichte die potenziellen Auswirkungen auf die LLM-Landschaft hervor. Die Kombination aus DMS und vdb bietet eine vielversprechende Lösung zur Kostensenkung und Leistungsverbesserung von LLMs und ebnet den Weg für eine breitere Akzeptanz in verschiedenen Branchen.
Discussion
AI Experts & Community
Be the first to comment