Исследователи Nvidia разработали новую технику, динамическое разреживание памяти (DMS), и облегченную C-библиотеку под названием vdb, которые вместе сократили затраты на большие языковые модели (LLM) в восемь раз, согласно многочисленным сообщениям. Этот прорыв позволяет LLM обрабатывать больше информации без ущерба для скорости или точности, потенциально ускоряя реальные приложения и внедрение в предприятиях.
Техника DMS сжимает кэш "ключ-значение" (KV) внутри LLM, значительно снижая потребность в памяти. Одновременно была создана библиотека vdb для эффективного хранения и поиска высокоразмерных векторных вложений. Vdb — это заголовочная C-библиотека, включающая несколько метрик расстояния (косинус, евклидово, скалярное произведение) и опциональную поддержку многопоточности. Она также поддерживает пользовательские аллокаторы памяти и предлагает привязки Python.
Согласно сообщениям, разработка DMS и vdb решает основное вычислительное узкое место, которое препятствовало широкому использованию LLM. Способность "думать" дольше и исследовать больше решений, в результате этих инноваций, является значительным шагом вперед.
Библиотека vdb, как описано в исходном материале, представляет собой однофайловую реализацию, что упрощает интеграцию. Ее функции включают возможность сохранения и загрузки баз данных на диск и с диска. Библиотека не имеет зависимостей, за исключением pthreads при включении многопоточности.
Хотя конкретные даты разработки и выпуска этих технологий не были предоставлены в исходном материале, сообщения подчеркивают потенциальное влияние на ландшафт LLM. Сочетание DMS и vdb предлагает перспективное решение для снижения затрат и повышения производительности LLM, открывая путь для более широкого внедрения в различных отраслях.
Discussion
AI Experts & Community
Be the first to comment