Nvidiaの研究者らは、新しい技術であるダイナミックメモリ疎化(DMS)を開発し、複数の報道によると、大規模言語モデル(LLM)のメモリ要件を8分の1に削減した。この画期的な技術は、vdbと呼ばれる軽量Cライブラリの開発と相まって、現実世界のアプリケーションにおけるLLMの幅広い採用を妨げている計算上のボトルネックを大幅に削減することを約束する。
DMS技術は、キーバリュー(KV)キャッシュを圧縮し、LLMが速度や精度を犠牲にすることなく、より多くの情報を処理できるようにすると、報道されている。このイノベーションにより、LLMはより長く「思考」し、より多くのソリューションを探求できるようになり、VentureBeatの報道によると、企業での採用における大きなハードルを克服できる可能性がある。
同時に、ヘッダーオンリーのCライブラリであるvdbが、高次元ベクトル埋め込みを効率的に保存および検索するために作成された。Hacker Newsで詳述されているように、このライブラリは、複数の距離メトリック(コサイン、ユークリッド、ドット積)、オプションのマルチスレッドサポート、およびデータベースをディスクに保存およびロードする機能などの機能を提供する。このライブラリは軽量に設計されており、マルチスレッド用のpthreads以外の依存関係はない。
vdbライブラリは、単一のヘッダーファイルvdb.hで実装されている。その使用法には、ヘッダーファイルのインクルードとCコンパイラでのコンパイルが含まれる。このライブラリにより、ユーザーはデータベースを作成し、ベクトルを追加し、さまざまな距離メトリックを使用して類似のベクトルを検索できる。Hacker Newsで指摘されているように、Pythonバインディングも利用可能である。
DMSとvdbの組み合わせは、LLMのコストを削減し、パフォーマンスを向上させるための有望なソリューションを提供する。KVキャッシュを圧縮し、効率的なベクトルデータベースを提供することにより、Nvidiaは、LLMをよりアクセスしやすく、より幅広いアプリケーションで実用的にすることを目指している。
Discussion
AI Experts & Community
Be the first to comment