गूगल का आंतरिक आरएल: लंबी अवधि के एआई एजेंटों के लिए एक छलांग

गूगल के शोधकर्ताओं ने एक नई एआई तकनीक, आंतरिक रीइन्फोर्समेंट लर्निंग (आंतरिक आरएल) विकसित की है, जो लंबी अवधि के एआई एजेंटों में क्रांति ला सकती है। 16 जनवरी, 2026 को घोषित यह सफलता, इस बात की सीमाओं को संबोधित करती है कि बड़े भाषा मॉडल (एलएलएम) जटिल तर्क को कैसे सीखते हैं। आंतरिक आरएल, अगले-टोकन भविष्यवाणी पर निर्भर रहने के बजाय, मॉडल की आंतरिक प्रक्रियाओं को चरण-दर-चरण समस्या-समाधान की ओर ले जाता है।

एलएलएम को प्रशिक्षित करने की वर्तमान विधि अक्सर मतिभ्रम और जटिल कार्यों में विफलताओं की ओर ले जाती है। पोस्ट-ट्रेनिंग के लिए रीइन्फोर्समेंट लर्निंग महत्वपूर्ण है, लेकिन एलएलएम की ऑटोरेग्रेसिव प्रकृति अन्वेषण को सीमित करती है। आंतरिक आरएल मॉडल के आंतरिक एक्टिवेशन का मार्गदर्शन करके एक संभावित समाधान प्रदान करता है।

यह नवाचार स्वायत्त एजेंटों के लिए जटिल तर्क और वास्तविक दुनिया के रोबोटिक्स को संभालने में सक्षम होने का मार्ग प्रशस्त कर सकता है। मुख्य लाभ निरंतर मानवीय निरीक्षण की कम आवश्यकता है। यह विकास अधिक सक्षम और स्वतंत्र एआई सिस्टम की दिशा में एक महत्वपूर्ण कदम है।

एलएलएम पारंपरिक रूप से एक बार में एक टोकन के अनुक्रम उत्पन्न करते हैं, जिससे विविध रणनीतियों का पता लगाना मुश्किल हो जाता है। अगले चरणों में विभिन्न अनुप्रयोगों के लिए आंतरिक आरएल का परीक्षण और स्केलिंग शामिल है। एआई समुदाय आगे के अनुसंधान और वास्तविक दुनिया में तैनाती की उम्मीद करता है।