Nvidia снижает затраты на LLM в 8 раз с новой векторной базой данных

Исследователи Nvidia разработали новую методику, позволяющую значительно снизить требования к памяти больших языковых моделей (LLM), что потенциально открывает путь для более широкого внедрения технологии. Новый метод, получивший название динамическое разреживание памяти (DMS), сжимает кэш «ключ-значение» (KV), что, согласно сообщениям, приводит к восьмикратному снижению затрат на LLM при сохранении точности.

Метод DMS позволяет LLM более эффективно обрабатывать информацию, позволяя им «думать» дольше и исследовать больше решений, не жертвуя скоростью или интеллектом. Это решает существенное вычислительное узкое место, которое препятствовало практическому применению и внедрению LLM на предприятиях. Инновация может привести к более доступным и экономичным решениям LLM для различных приложений.

В новостях по теме, разработка легковесных инструментов продолжает поддерживать развитие технологий ИИ. На GitHub была выпущена заголовочная C-библиотека под названием "vdb". Библиотека, созданная abdimoallim, предназначена для хранения и поиска высокоразмерных векторных вложений. Она предлагает такие функции, как несколько метрик расстояния, опциональная поддержка многопоточности и поддержка пользовательского распределителя памяти. Библиотека представляет собой однофайловую реализацию, что упрощает ее интеграцию в проекты.

Библиотека vdb позволяет разработчикам создавать векторные базы данных, которые имеют решающее значение для таких задач, как поиск сходства и системы рекомендаций. Заголовочный характер библиотеки упрощает интеграцию, а ее опциональные возможности многопоточности могут повысить производительность. Библиотека поддерживает метрики расстояния косинуса, Евклида и скалярного произведения.

Сочетание метода DMS от Nvidia и доступности таких инструментов, как vdb, подчеркивает текущие усилия по оптимизации и демократизации технологии ИИ. В то время как DMS от Nvidia фокусируется на снижении вычислительных затрат на запуск LLM, vdb предоставляет легковесное решение для управления векторными вложениями, основным компонентом многих приложений ИИ.