Nvidia-Forscher haben eine neue Technik namens Dynamic Memory Sparsification (DMS) entwickelt, die den Speicherbedarf von Large Language Models (LLMs) um den Faktor acht reduziert hat, wie mehrere Berichte belegen. Dieser Durchbruch, gepaart mit der Entwicklung einer leichten C-Bibliothek namens vdb, verspricht, die Rechenengpässe, die die breitere Akzeptanz von LLMs in realen Anwendungen behindern, erheblich zu reduzieren.
Die DMS-Technik komprimiert den Key-Value (KV)-Cache, wodurch LLMs mehr Informationen verarbeiten können, ohne Geschwindigkeit oder Genauigkeit zu opfern, so Berichte. Diese Innovation ermöglicht es LLMs, "länger zu denken" und mehr Lösungen zu erkunden, wodurch möglicherweise eine große Hürde bei der Einführung in Unternehmen überwunden wird, wie in einem Bericht von VentureBeat festgestellt wurde.
Gleichzeitig wurde eine Header-Only-C-Bibliothek namens vdb erstellt, um hochdimensionale Vektor-Embeddings effizient zu speichern und zu durchsuchen. Diese Bibliothek bietet, wie auf Hacker News detailliert beschrieben, Funktionen wie mehrere Distanzmetriken (Cosinus, Euklid, Dot-Produkt), optionale Multithreading-Unterstützung und die Möglichkeit, Datenbanken auf der Festplatte zu speichern und zu laden. Die Bibliothek ist leichtgewichtig konzipiert und hat keine Abhängigkeiten außer pthreads für Multithreading.
Die vdb-Bibliothek ist in einer einzigen Header-Datei, vdb.h, implementiert. Ihre Verwendung beinhaltet das Einbinden der Header-Datei und das Kompilieren mit einem C-Compiler. Die Bibliothek ermöglicht es Benutzern, eine Datenbank zu erstellen, Vektoren hinzuzufügen und nach ähnlichen Vektoren mithilfe verschiedener Distanzmetriken zu suchen. Python-Bindings sind ebenfalls verfügbar, wie auf Hacker News erwähnt.
Die Kombination aus DMS und vdb bietet eine vielversprechende Lösung zur Reduzierung der Kosten und zur Verbesserung der Leistung von LLMs. Durch die Komprimierung des KV-Cache und die Bereitstellung einer effizienten Vektordatenbank zielt Nvidia darauf ab, LLMs für eine breitere Palette von Anwendungen zugänglicher und praktikabler zu machen.
Discussion
AI Experts & Community
Be the first to comment