Исследователи Google разработали новую технику ИИ, внутреннее обучение с подкреплением (internal RL), которая может совершить революцию в создании ИИ-агентов с долгосрочным планированием. Этот прорыв, анонсированный 16 января 2026 года, решает проблемы, связанные с тем, как модели ИИ обучаются сложному мышлению. Internal RL направляет внутренние процессы модели на пошаговое решение проблем. Это обходит традиционный метод предсказания следующего токена, который часто приводит к ошибкам.
Проблема с предсказанием следующего токена заключается в том, что LLM генерируют последовательности по одному токену за раз. Это затрудняет для моделей исследование новых стратегий во время обучения. Internal RL предлагает масштабируемый путь для создания автономных агентов. Эти агенты могли бы справляться со сложными рассуждениями и реальной робототехникой.
Непосредственное влияние можно будет увидеть в способности ИИ выполнять сложные задачи без постоянного контроля со стороны человека. Эксперты считают, что это может привести к созданию более эффективных и надежных систем ИИ.
В настоящее время обучение с подкреплением используется для обучения LLM сложному мышлению. Однако архитектура этих моделей ограничивает их способность эффективно планировать.
Следующие шаги включают тестирование internal RL в реальных приложениях. Исследователи стремятся усовершенствовать эту технику и изучить ее потенциал для различных задач ИИ. Эта разработка обещает будущее с более способными и автономными ИИ-агентами.
Discussion
Join the conversation
Be the first to comment