Внутренний RL от Google: скачок к ИИ с долгосрочным планированием?

Исследователи Google разработали новую технику ИИ, внутреннее обучение с подкреплением (internal RL). Это может проложить путь к созданию более способных ИИ-агентов. Прорыв, анонсированный 16 января 2026 года, решает проблемы, связанные с тем, как LLM обучаются сложному мышлению.

Internal RL управляет внутренними процессами модели. Это помогает ей разрабатывать пошаговые решения. Современные LLM испытывают трудности с долгосрочным планированием из-за генерации токен за токеном. Этот новый метод обходит необходимость в постоянном контроле со стороны человека.

Непосредственное влияние можно будет увидеть в робототехнике и автономных системах. Эксперты считают, что этот прогресс приведет к созданию ИИ, который сможет более независимо справляться со сложными задачами. Разработка знаменует собой значительный шаг за пределы предсказания следующего токена.

LLM обычно обучаются с использованием предсказания следующего токена. Этот метод заставляет модели вносить небольшие, случайные изменения. Internal RL предлагает более прямой подход к решению сложных задач.

Исследователи планируют изучить применение в реальных сценариях. Основное внимание будет уделено масштабированию технологии для более широкого использования. Это может революционизировать роль ИИ в различных отраслях.