Investigadores de Google han desarrollado una nueva técnica de IA, el aprendizaje por refuerzo interno (RL interno), que podría revolucionar los agentes de IA de horizonte temporal largo. El avance, anunciado el 16 de enero de 2026, aborda las limitaciones en la forma en que los modelos de IA aprenden el razonamiento complejo. El RL interno dirige los procesos internos de un modelo hacia la resolución de problemas paso a paso. Esto evita el método tradicional de predicción del siguiente token, que a menudo conduce a errores.
El problema con la predicción del siguiente token es que los LLM generan secuencias un token a la vez. Esto dificulta que los modelos exploren nuevas estrategias durante el entrenamiento. El RL interno ofrece una vía escalable para la creación de agentes autónomos. Estos agentes podrían manejar el razonamiento complejo y la robótica del mundo real.
El impacto inmediato podría verse en la capacidad de la IA para realizar tareas complejas sin la supervisión humana constante. Los expertos creen que esto podría conducir a sistemas de IA más eficientes y fiables.
Actualmente, el aprendizaje por refuerzo se utiliza para entrenar a los LLM para el razonamiento complejo. Sin embargo, la arquitectura de estos modelos limita su capacidad para planificar eficazmente.
Los siguientes pasos implican probar el RL interno en aplicaciones del mundo real. Los investigadores pretenden perfeccionar la técnica y explorar su potencial para diversas tareas de IA. El desarrollo promete un futuro de agentes de IA más capaces y autónomos.
Discussion
Join the conversation
Be the first to comment