Исследователи Google добились прорыва, который может революционизировать ИИ. Они разработали "внутреннее RL" (internal RL), технику, позволяющую моделям ИИ обучаться сложному мышлению без типичных проблем галлюцинаций. Эта инновация, представленная 16 января 2026 года, открывает путь к созданию продвинутых агентов ИИ.
Внутреннее RL направляет внутреннюю работу модели на поэтапное решение проблем. Это контрастирует с традиционными методами, которые полагаются на предсказание следующего слова в последовательности. Текущий подход ограничивает способность ИИ эффективно планировать наперед. Обучение с подкреплением является ключом к пост-тренировке LLM, особенно для задач, требующих долгосрочного планирования.
Непосредственное влияние можно будет увидеть в автономных системах. Эксперты считают, что это может привести к созданию агентов ИИ, способных справляться со сложными задачами и реальной робототехникой. Это достижение снижает потребность в постоянном контроле со стороны человека.
Современные LLM испытывают трудности со сложным мышлением из-за своей архитектуры. Они генерируют последовательности токен за токеном, что ограничивает их способность исследовать новые стратегии. Внутреннее RL преодолевает это ограничение, фокусируясь на внутреннем состоянии модели.
Google планирует и дальше совершенствовать внутреннее RL. Следующий шаг включает в себя изучение его потенциала в различных приложениях. Это может открыть новые возможности для ИИ в областях, требующих принятия сложных решений.
Discussion
Join the conversation
Be the first to comment