Pesquisadores do Google desenvolveram uma nova técnica de IA, aprendizado por reforço interno (RL interno). Isso pode abrir caminho para agentes de IA mais capazes. A inovação, anunciada em 16 de janeiro de 2026, aborda limitações em como os LLMs aprendem o raciocínio complexo.
O RL interno direciona os processos internos de um modelo. Isso o ajuda a desenvolver soluções passo a passo. Os LLMs atuais têm dificuldades com o planejamento de longo horizonte devido à sua geração token por token. Este novo método ignora a necessidade de supervisão humana constante.
O impacto imediato pode ser visto na robótica e em sistemas autônomos. Especialistas acreditam que este avanço levará a uma IA que pode lidar com tarefas complexas de forma mais independente. O desenvolvimento marca um passo significativo além da previsão do próximo token.
Os LLMs são normalmente treinados usando a previsão do próximo token. Este método força os modelos a fazer pequenas mudanças aleatórias. O RL interno oferece uma abordagem mais direta para a resolução de problemas complexos.
Os pesquisadores planejam explorar aplicações em cenários do mundo real. O foco estará em escalar a tecnologia para um uso mais amplo. Isso pode revolucionar o papel da IA em vários setores.
Discussion
Join the conversation
Be the first to comment