Внутренний RL от Google: скачок к ИИ с долгосрочным планированием

Исследователи Google, возможно, решили серьезную проблему в области ИИ. Они разработали "внутреннее RL" — новую технику для обучения моделей ИИ. Этот прорыв может открыть путь к созданию ИИ-агентов с долгосрочным горизонтом планирования. Результаты были опубликованы 16 января 2026 года.

Внутреннее RL управляет внутренними процессами модели. Оно направляет ИИ к пошаговому решению проблем. Это обходит ограничения предсказания следующего токена. Современные LLM часто испытывают трудности со сложными рассуждениями.

Немедленный эффект может быть значительным. ИИ-агенты могут стать более автономными. Они смогут справляться со сложными задачами без постоянного контроля со стороны человека. Это имеет последствия для робототехники и других областей.

Традиционно LLM обучаются посредством предсказания следующего токена. Этот метод может быть неэффективным для долгосрочного планирования. Внутреннее RL предлагает более прямой подход. Оно фокусируется на разработке стратегий высокого уровня.

Следующие шаги включают дальнейшее тестирование и доработку. Исследователи стремятся масштабировать эту технику. Конечная цель — создать действительно автономных ИИ-агентов. Это может революционизировать взаимодействие ИИ с миром.