Исследование DeepSeek в области "условной памяти" направлено на решение проблемы неэффективного использования GPU-вычислений в больших языковых моделях (LLM) при доступе к статической информации. В недавно опубликованном исследовании представлен модуль под названием Engram, предназначенный для отделения извлечения статических шаблонов от динамического рассуждения, что потенциально позволяет сэкономить значительные вычислительные ресурсы.
Согласно исследованию, корпоративные LLM часто используют дорогостоящие GPU-вычисления, предназначенные для сложных рассуждений, для простого извлечения статической информации, такой как названия продуктов, технические характеристики или стандартные пункты контрактов. Эти поиски происходят миллионы раз в день, растрачивая вычислительные циклы и увеличивая затраты на инфраструктуру. Команда DeepSeek, включая соавтора и основателя Лян Вэнфэна, стремилась оптимизировать этот процесс.
Посредством систематических экспериментов DeepSeek определила, что выделение 75% емкости разреженной модели для динамического рассуждения и 25% для статического поиска обеспечивает оптимальный баланс между вычислениями и памятью. Результаты показали, что эта система памяти улучшила возможности рассуждения более значительно, чем извлечение знаний. Оценки по сложным тестам рассуждений, измеренные с использованием Big-Bench Hard, подскочили с 70% до 74% точности, в то время как результаты тестов, ориентированных на знания, улучшились с 57% до 61%.
Последствия этого исследования выходят за рамки простой экономии. Оптимизируя способ доступа и обработки информации LLM, работа DeepSeek бросает вызов фундаментальным предположениям о роли памяти в нейронных сетях. Модуль Engram позволяет использовать более тонкий подход к распределению памяти, потенциально открывая путь к более эффективным и мощным системам ИИ.
Разработка появилась в то время, когда энергопотребление и воздействие больших языковых моделей на окружающую среду находятся под пристальным вниманием. Сокращая вычислительные издержки, связанные с извлечением статической информации, подход DeepSeek к условной памяти может способствовать более устойчивому развитию ИИ. Необходимы дальнейшие исследования для изучения масштабируемости и обобщаемости Engram в различных архитектурах и приложениях LLM.
Discussion
Join the conversation
Be the first to comment