يا للمفارقة التي تكاد تُقطع بشريحة سيليكون. في شركة Anthropic، وهي الشركة التي تدفع حدود الذكاء الاصطناعي بنماذج Claude الخاصة بها، ينخرط المهندسون في سباق تسلح دائم. خصمهم؟ إبداعهم الخاص. الجائزة؟ اختبار مقابلة تقنية موثوق به.
منذ عام 2024، اعتمد فريق تحسين الأداء في Anthropic على اختبار يُجرى في المنزل لتقييم مهارات الموظفين المحتملين. لقد كانت طريقة مباشرة لفصل الغث عن الثمين، وتحديد المرشحين ذوي البراعة الحقيقية في البرمجة. ولكن مع التطور السريع لأدوات البرمجة بالذكاء الاصطناعي، وخاصة Claude الخاص بشركة Anthropic، أصبح الاختبار هدفًا متحركًا.
التحدي، كما أوضح قائد الفريق تريستان هيوم في منشور مدونة حديث، هو أن Claude أصبح جيدًا جدًا. يجبر كل تكرار للنموذج على إعادة تصميم كاملة للتقييم. يكتب هيوم: "أجبرنا كل نموذج Claude جديد على إعادة تصميم الاختبار". المشكلة ليست فقط في أن Claude يمكنه إكمال الاختبار؛ بل يمكنه إكماله بشكل جيد للغاية. وفقًا لهيوم، تفوق Claude Opus 4 على معظم المتقدمين من البشر عندما أُعطي نفس القيد الزمني. في حين أن هذا سمح في البداية لـ Anthropic بتحديد أقوى المرشحين، إلا أن الإصدار اللاحق من Claude Opus 4.5 طمس الخطوط بشكل أكبر، ليطابق أداء حتى أولئك المتقدمين من المستوى الأعلى.
يمثل هذا مشكلة كبيرة في تقييم المرشحين. في بيئة منزلية، بدون العين الساهرة للمراقب، لا توجد طريقة لضمان أن المتقدمين لا يستفيدون من مساعدة الذكاء الاصطناعي. وإذا كانوا يفعلون ذلك، فيمكنهم الصعود بسرعة إلى قمة مجموعة المتقدمين، ليس بسبب مهاراتهم المتأصلة، ولكن بسبب قدرتهم على مطالبة الذكاء الاصطناعي بشكل فعال. يعترف هيوم: "في ظل قيود الاختبار المنزلي، لم تعد لدينا طريقة للتمييز بين ناتج أفضل مرشحينا ونموذجنا الأكثر قدرة".
يعكس الوضع في Anthropic صراعًا أوسع نطاقًا يجري في التعليم. تكافح المدارس والجامعات في جميع أنحاء العالم مع الآثار المترتبة على الغش بمساعدة الذكاء الاصطناعي. يمكن للطلاب الآن استخدام الذكاء الاصطناعي لكتابة المقالات وحل المعادلات المعقدة وحتى إنشاء التعليمات البرمجية، مما يثير تساؤلات حول صلاحية طرق التقييم التقليدية. حقيقة أن مختبر الذكاء الاصطناعي مثل Anthropic يواجه معضلة مماثلة تؤكد انتشار هذه القضية.
ومع ذلك، فإن Anthropic في وضع فريد لمعالجة هذا التحدي. بصفتها شركة رائدة في أبحاث الذكاء الاصطناعي، فإنها تمتلك الخبرة الفنية لتطوير طرق تقييم جديدة يمكنها التمييز بشكل فعال بين العمل البشري والعمل الناتج عن الذكاء الاصطناعي. تستكشف الشركة حلولًا مختلفة، بما في ذلك دمج المزيد من مهام حل المشكلات الإبداعية المفتوحة التي يصعب على الذكاء الاصطناعي تكرارها. كما أنهم يبحثون في طرق للكشف عن التعليمات البرمجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي، على الرغم من أن هذا مجال دائم التطور.
تمتد الآثار المترتبة على هذا الوضع إلى ما هو أبعد من مجال المقابلات الفنية. مع استمرار تقدم الذكاء الاصطناعي، سيصبح من الصعب بشكل متزايد تقييم المهارات والقدرات البشرية بدقة. يمكن أن يكون لهذا عواقب بعيدة المدى على التعليم والتوظيف وحتى التعريف الحقيقي للذكاء البشري.
تسلط المعركة المستمرة بين مهندسي Anthropic ونماذج الذكاء الاصطناعي الخاصة بهم الضوء على الحاجة إلى إعادة التفكير بشكل أساسي في التقييم في عصر الذكاء الاصطناعي. إنه تحد سيتطلب الإبداع والابتكار والاستعداد للتكيف مع المشهد التكنولوجي المتغير بسرعة. قد يعتمد مستقبل التقييم على قدرتنا على البقاء متقدمين بخطوة على الآلات.
Discussion
Join the conversation
Be the first to comment