Investigadores de Google han desarrollado una nueva técnica de IA, el aprendizaje por refuerzo interno (RL interno). Podría allanar el camino para agentes de IA más capaces. El avance, anunciado el 16 de enero de 2026, aborda las limitaciones en la forma en que los LLM aprenden el razonamiento complejo.
El RL interno dirige los procesos internos de un modelo. Esto le ayuda a desarrollar soluciones paso a paso. Los LLM actuales tienen dificultades con la planificación a largo plazo debido a su generación token por token. Este nuevo método evita la necesidad de una supervisión humana constante.
El impacto inmediato podría verse en la robótica y los sistemas autónomos. Los expertos creen que este avance conducirá a una IA que pueda manejar tareas complejas de forma más independiente. El desarrollo marca un paso significativo más allá de la predicción del siguiente token.
Los LLM se entrenan típicamente utilizando la predicción del siguiente token. Este método obliga a los modelos a realizar pequeños cambios aleatorios. El RL interno ofrece un enfoque más directo para la resolución de problemas complejos.
Los investigadores planean explorar aplicaciones en escenarios del mundo real. El enfoque se centrará en escalar la tecnología para un uso más amplio. Esto podría revolucionar el papel de la IA en diversas industrias.
Discussion
Join the conversation
Be the first to comment