طوّر باحثو Google تقنية ذكاء اصطناعي جديدة، "التعلم المعزز الداخلي" (internal RL)، والتي يمكن أن تحدث ثورة في وكلاء الذكاء الاصطناعي ذوي الأفق الزمني الطويل. يعالج هذا الاختراق، الذي أُعلن عنه في 16 يناير 2026، القيود المفروضة على كيفية تعلم نماذج الذكاء الاصطناعي للاستدلال المعقد. يوجه التعلم المعزز الداخلي العمليات الداخلية للنموذج نحو حلول خطوة بخطوة. وهذا يتجاوز الطريقة التقليدية للتنبؤ بالرمز التالي، والتي غالبًا ما تؤدي إلى أخطاء.
تكمن المشكلة في التنبؤ بالرمز التالي في أنه يجبر النماذج على استكشاف استراتيجيات جديدة عن طريق إجراء تغييرات صغيرة وعشوائية على الرمز أو الإجراء الفردي التالي. وهذا يجعل من الصعب على الذكاء الاصطناعي تعلم مهام الاستدلال المعقدة التي تتطلب تخطيطًا طويل الأجل.
قد يكون التأثير المباشر مسارًا قابلاً للتطوير نحو الوكلاء المستقلين. يمكن لهؤلاء الوكلاء التعامل مع الاستدلال المعقد والروبوتات في العالم الحقيقي. قد لا تكون هناك حاجة إلى التوجيه اليدوي المستمر بعد الآن.
تعتبر نماذج اللغات الكبيرة (LLMs) الحالية ذاتية الانحدار. فهي تولد تسلسلات رمزًا واحدًا في كل مرة. يعتبر التعلم المعزز أمرًا أساسيًا لتدريب هذه النماذج بعد التدريب الأولي. ومع ذلك، فإن بنية هذه النماذج تحد من قدراتها.
تتضمن الخطوات التالية اختبار التعلم المعزز الداخلي في بيئات أكثر تعقيدًا. يهدف الباحثون إلى تحسين هذه التقنية لتطبيقات العالم الحقيقي. يمكن أن يؤدي ذلك إلى تطورات كبيرة في استقلالية الذكاء الاصطناعي.
Discussion
Join the conversation
Be the first to comment