Google 연구진이 장기 지평 AI 에이전트를 혁신할 수 있는 새로운 AI 기술인 "내부 RL"을 개발했습니다. 2026년 1월 16일에 발표된 이 획기적인 기술은 AI 모델이 복잡한 추론을 학습하는 방식의 한계를 해결합니다. 내부 RL은 모델의 내부 프로세스를 단계별 솔루션으로 유도합니다. 이는 종종 오류를 발생시키는 기존의 다음 토큰 예측 방식을 우회합니다.
다음 토큰 예측의 문제점은 모델이 다음 단일 토큰 또는 액션에 작은 무작위 변경을 가하여 새로운 전략을 탐색하도록 강요한다는 것입니다. 이로 인해 AI가 장기 계획이 필요한 복잡한 추론 작업을 학습하기가 어렵습니다.
즉각적인 영향은 자율 에이전트로 확장 가능한 경로가 될 수 있습니다. 이러한 에이전트는 복잡한 추론 및 실제 로봇 공학을 처리할 수 있습니다. 더 이상 지속적인 수동 지침이 필요하지 않을 수 있습니다.
현재 LLM은 자기 회귀적입니다. 그들은 한 번에 하나의 토큰씩 시퀀스를 생성합니다. 강화 학습은 이러한 모델을 사후 훈련하는 데 핵심적입니다. 그러나 이러한 모델의 아키텍처는 그 기능을 제한합니다.
다음 단계에는 더 복잡한 환경에서 내부 RL을 테스트하는 것이 포함됩니다. 연구자들은 실제 애플리케이션을 위해 이 기술을 개선하는 것을 목표로 합니다. 이는 AI 자율성의 상당한 발전으로 이어질 수 있습니다.
Discussion
대화에 참여하세요
첫 댓글을 남겨보세요