Nvidia снижает затраты на LLM в 8 раз с помощью векторной базы данных!

Исследователи Nvidia разработали новую библиотеку векторных баз данных "vdb" и метод под названием Dynamic Memory Sparsification (DMS), которые вместе потенциально могут сократить расходы на большие языковые модели (LLM) в восемь раз, согласно нескольким сообщениям. Нововведения направлены на решение проблем с ограничениями памяти и повышение эффективности обработки сложных данных в LLM.

Библиотека vdb представляет собой легковесную, заголовочную C-библиотеку, предназначенную для эффективного хранения и поиска высокоразмерных векторных вложений. Она предлагает такие функции, как несколько метрик расстояния (косинус, евклидово расстояние, скалярное произведение), опциональную поддержку многопоточности и возможность сохранения и загрузки баз данных на диск. Библиотека не имеет зависимостей, за исключением pthreads при включении многопоточности. Также доступны привязки Python. "vdb - это легковесная C-библиотека для эффективного хранения и поиска высокоразмерных векторных вложений", - отметил один источник.

Одновременно исследователи Nvidia разработали Dynamic Memory Sparsification (DMS), метод, который сжимает кэш "ключ-значение" (KV) в больших языковых моделях. Это сжатие позволяет LLM обрабатывать больше информации без ущерба для скорости. Кэш KV является критическим компонентом LLM, хранящим информацию о прошлых взаимодействиях модели. Сжимая этот кэш, можно значительно уменьшить объем памяти, занимаемой моделями.

Сочетание DMS и vdb предлагает комплексное решение для повышения эффективности и снижения затрат, связанных с запуском больших языковых моделей. Разработка vdb предоставляет упрощенный метод обработки векторных вложений, в то время как DMS решает ограничения памяти, которые часто ограничивают производительность LLM. "Эти нововведения решают проблемы с ограничениями памяти в больших языковых моделях и предлагают повышенную эффективность при обработке сложных данных", - заявил один источник.

Точные детали того, как достигается экономия затрат и конкретные улучшения производительности, пока не полностью доступны. Однако сообщаемое восьмикратное сокращение затрат предполагает значительный прогресс в области разработки LLM. Вероятно, будут проведены дальнейшие исследования и тестирование для полного понимания влияния этих новых технологий.