Исследователи Google разработали новую технику искусственного интеллекта, внутреннее обучение с подкреплением (internal RL), которая может произвести революцию в создании AI-агентов с большим горизонтом планирования. Этот прорыв, анонсированный 16 января 2026 года, решает проблемы, связанные с тем, как большие языковые модели (LLM) обучаются сложному мышлению. Internal RL направляет внутренние процессы модели к пошаговому решению задач, вместо того чтобы полагаться на предсказание следующего токена.
Существующий метод обучения LLM часто приводит к галлюцинациям и неудачам в сложных задачах. Обучение с подкреплением имеет решающее значение для постобработки, но авторегрессионная природа LLM ограничивает возможности исследования. Internal RL предлагает потенциальное решение, направляя внутренние активации модели.
Эта инновация может проложить путь к автономным агентам, способным справляться со сложными рассуждениями и реальной робототехникой. Ключевым преимуществом является снижение необходимости постоянного контроля со стороны человека. Эта разработка знаменует собой значительный шаг к созданию более способных и независимых AI-систем.
LLM традиционно генерируют последовательности по одному токену за раз, что затрудняет изучение различных стратегий. Следующие шаги включают тестирование и масштабирование internal RL для различных приложений. AI-сообщество ожидает дальнейших исследований и внедрений в реальных условиях.
Discussion
Join the conversation
Be the first to comment