Исследователи Nvidia разработали новую технику, динамическое разреживание памяти (DMS), которая, согласно многочисленным сообщениям, сократила потребность в памяти больших языковых моделей (LLM) в восемь раз. Этот прорыв, в сочетании с разработкой облегченной C-библиотеки под названием vdb, обещает значительно уменьшить узкие места в вычислениях, препятствующие более широкому внедрению LLM в реальных приложениях.
Техника DMS сжимает кэш "ключ-значение" (KV), позволяя LLM обрабатывать больше информации без ущерба для скорости или точности, согласно сообщениям. Эта инновация позволяет LLM "думать" дольше и исследовать больше решений, потенциально преодолевая основное препятствие для внедрения в предприятиях, как указано в отчете VentureBeat.
Одновременно была создана заголовочная C-библиотека под названием vdb для эффективного хранения и поиска многомерных векторных представлений. Эта библиотека, как подробно описано на Hacker News, предлагает такие функции, как несколько метрик расстояния (косинус, евклидово, скалярное произведение), опциональную поддержку многопоточности и возможность сохранения и загрузки баз данных на диск и с диска. Библиотека разработана как облегченная, без зависимостей, кроме pthreads для многопоточности.
Библиотека vdb реализована в одном заголовочном файле, vdb.h. Ее использование включает в себя подключение заголовочного файла и компиляцию с помощью компилятора C. Библиотека позволяет пользователям создавать базу данных, добавлять векторы и искать похожие векторы, используя различные метрики расстояния. Также доступны привязки Python, как отмечено на Hacker News.
Сочетание DMS и vdb предлагает многообещающее решение для снижения затрат и повышения производительности LLM. Сжимая кэш KV и предоставляя эффективную векторную базу данных, Nvidia стремится сделать LLM более доступными и практичными для более широкого спектра приложений.
Discussion
AI Experts & Community
Be the first to comment