Исследователи из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института (MIT) разработали новую "рекурсивную" структуру, которая позволяет большим языковым моделям (LLM) обрабатывать запросы, содержащие до 10 миллионов токенов, не подвергаясь "контекстной гнили" – распространенной проблеме, ухудшающей производительность по мере увеличения длины входных данных. Этот инновационный подход, известный как Recursive Language Models (RLMs), рассматривает обширный запрос как внешнюю среду, с которой LLM может взаимодействовать программно.
Вместо того, чтобы помещать весь запрос в ограниченное контекстное окно модели, фреймворк RLM позволяет LLM изучать, декомпозировать и рекурсивно вызывать себя для обработки более мелких, управляемых фрагментов текста. Этот метод переосмысливает рассуждения в длинном контексте как системную проблему, позволяя моделям проверять запросы с помощью кода. По словам команды MIT, это позволяет LLM рассуждать над миллионами токенов без необходимости переобучения.
Фреймворк функционирует как обертка вокруг существующих LLM, что делает его потенциальной прямой заменой для приложений, которые в настоящее время напрямую обращаются к этим моделям. Такая простота интеграции может ускорить его внедрение в различных отраслях.
Разработка решает важную проблему в области искусственного интеллекта: "проблему контекста LLM". В то время как передовые модели демонстрируют растущую сложность в рассуждениях, их способность обрабатывать огромные объемы информации остается ограниченной. Традиционные подходы включают расширение контекстных окон или обобщение старой информации, но эти методы часто оказываются недостаточными или вносят неточности.
Исследователи из MIT утверждают, что RLM предлагают более практичное решение для долгосрочных задач, которые часто перегружают современные модели. Примеры таких задач включают комплексный анализ кодовой базы, углубленный юридический анализ и сложные многоступенчатые процессы рассуждений. Позволяя LLM эффективно справляться с этими задачами, фреймворк потенциально может значительно повысить производительность и качество принятия решений в различных профессиональных областях.
Последствия этой технологии выходят за рамки непосредственных практических применений. Преодолевая ограничения контекстных окон, RLM могут проложить путь к более сложным системам искусственного интеллекта, способным справляться со сложными, долгосрочными проектами и анализами. Это может привести к достижениям в таких областях, как научные исследования, финансовое моделирование и стратегическое планирование.
Команда MIT в настоящее время изучает дальнейшие применения фреймворка RLM и работает над оптимизацией его производительности. Они ожидают, что эта технология сыграет решающую роль в будущем развитии ИИ, позволяя моделям решать все более сложные и требовательные задачи. Исследование подчеркивает сдвиг в акценте с простого увеличения размера модели на разработку более интеллектуальных и эффективных методов обработки информации.
Discussion
Join the conversation
Be the first to comment