Nvidiaの研究者たちは、新しい技術である動的メモリ疎化(DMS)と、vdbと呼ばれる軽量Cライブラリを開発しました。これらを組み合わせることで、大規模言語モデル(LLM)のコストを8分の1に削減することに成功したと、複数の報道が伝えています。この画期的な技術により、LLMは速度や精度を犠牲にすることなく、より多くの情報を処理できるようになり、現実世界のアプリケーションや企業での導入を加速させる可能性があります。
DMS技術は、LLM内のキーバリュー(KV)キャッシュを圧縮し、メモリ需要を大幅に削減します。同時に、vdbライブラリは、高次元ベクトル埋め込みを効率的に保存および検索するために作成されました。Vdbは、複数の距離指標(コサイン、ユークリッド、ドット積)とオプションのマルチスレッドサポートを備えたヘッダーオンリーのCライブラリです。また、カスタムメモリアロケータをサポートし、Pythonバインディングも提供しています。
報道によると、DMSとvdbの開発は、LLMの普及を妨げてきた主要な計算上のボトルネックに対処するものです。これらの革新の結果として、より長く「思考」し、より多くの解決策を探求できるようになったことは、大きな進歩です。
ソース資料で説明されているように、vdbライブラリは単一ファイルの実装であり、容易に統合できます。その機能には、データベースをディスクに保存およびロードする機能が含まれています。ライブラリは、マルチスレッドが有効になっている場合を除き、pthreads以外の依存関係はありません。
これらの技術の開発とリリースの具体的な日付はソース資料では提供されていませんが、報道ではLLMの状況への潜在的な影響が強調されています。DMSとvdbの組み合わせは、コストを削減し、LLMのパフォーマンスを向上させる有望なソリューションを提供し、さまざまな業界での幅広い採用への道を開きます。
Discussion
AI Experts & Community
Be the first to comment