Nvidia senkt LLM-Kosten mit neuer Vektordatenbank um das 8-fache

Nvidia-Forscher haben eine neue Technik entwickelt, um den Speicherbedarf großer Sprachmodelle (LLMs) drastisch zu reduzieren, was potenziell den Weg für eine breitere Akzeptanz der Technologie ebnet. Die neue Methode, genannt Dynamic Memory Sparsification (DMS), komprimiert den Key-Value (KV)-Cache, was laut Berichten zu einer achtfachen Reduzierung der LLM-Kosten bei gleichbleibender Genauigkeit führt.

Die DMS-Technik ermöglicht es LLMs, Informationen effizienter zu verarbeiten, wodurch sie in der Lage sind, "länger zu denken" und mehr Lösungen zu erkunden, ohne Geschwindigkeit oder Intelligenz zu opfern. Dies behebt einen erheblichen Rechenengpass, der die reale Anwendung und die unternehmensweite Einführung von LLMs behindert hat. Die Innovation könnte zu zugänglicheren und kostengünstigeren LLM-Lösungen für verschiedene Anwendungen führen.

In verwandten Nachrichten unterstützt die Entwicklung von Lightweight-Tools weiterhin den Fortschritt von KI-Technologien. Eine Header-Only-C-Bibliothek namens "vdb" wurde auf GitHub veröffentlicht. Die von abdimoallim erstellte Bibliothek ist für das Speichern und Suchen hochdimensionaler Vektor-Embeddings konzipiert. Sie bietet Funktionen wie mehrere Distanzmetriken, optionale Multithreading-Unterstützung und Unterstützung für benutzerdefinierte Speicherallokatoren. Die Bibliothek ist eine Single-File-Implementierung, wodurch sie sich leicht in Projekte integrieren lässt.

Die vdb-Bibliothek ermöglicht es Entwicklern, Vektordatenbanken zu erstellen, die für Aufgaben wie Ähnlichkeitssuche und Empfehlungssysteme von entscheidender Bedeutung sind. Die Header-Only-Natur der Bibliothek vereinfacht die Integration, und ihre optionalen Multithreading-Funktionen können die Leistung verbessern. Die Bibliothek unterstützt Kosinus-, euklidische und Dot-Produkt-Distanzmetriken.

Die Kombination aus Nvidias DMS-Technik und der Verfügbarkeit von Tools wie vdb unterstreicht die laufenden Bemühungen, die KI-Technologie zu optimieren und zu demokratisieren. Während Nvidias DMS sich auf die Reduzierung der Rechenkosten für die Ausführung von LLMs konzentriert, bietet vdb eine Lightweight-Lösung für die Verwaltung von Vektor-Embeddings, einer Kernkomponente vieler KI-Anwendungen.