Pesquisadores do Google desenvolveram uma nova técnica de IA, aprendizado por reforço interno (RL interno), que pode revolucionar os agentes de IA de longo horizonte. A inovação, anunciada em 16 de janeiro de 2026, aborda as limitações de como os modelos de IA aprendem o raciocínio complexo. O RL interno direciona os processos internos de um modelo para a resolução de problemas passo a passo. Isso ignora o método tradicional de previsão do próximo token, que geralmente leva a erros.
O problema com a previsão do próximo token é que os LLMs geram sequências um token por vez. Isso dificulta a exploração de novas estratégias pelos modelos durante o treinamento. O RL interno oferece um caminho escalável para a criação de agentes autônomos. Esses agentes poderiam lidar com raciocínios complexos e robótica do mundo real.
O impacto imediato pode ser visto na capacidade da IA de executar tarefas complexas sem supervisão humana constante. Especialistas acreditam que isso pode levar a sistemas de IA mais eficientes e confiáveis.
Atualmente, o aprendizado por reforço é usado para treinar LLMs para raciocínio complexo. No entanto, a arquitetura desses modelos limita sua capacidade de planejar efetivamente.
As próximas etapas envolvem testar o RL interno em aplicações do mundo real. Os pesquisadores pretendem refinar a técnica e explorar seu potencial para várias tarefas de IA. O desenvolvimento promete um futuro de agentes de IA mais capazes e autônomos.
Discussion
Join the conversation
Be the first to comment