বিদ্রুপ এতটাই গাঢ় যে একটি সিলিকন ওয়েফার দিয়ে কেটে ফেলা যায়। অ্যানথ্রোপিকে, যে সংস্থাটি তার ক্লড মডেলগুলির মাধ্যমে কৃত্রিম বুদ্ধিমত্তার সীমানা প্রসারিত করছে, প্রকৌশলীরা একটি অবিরাম প্রতিযোগিতায় আবদ্ধ। তাদের প্রতিপক্ষ? তাদের নিজস্ব সৃষ্টি। পুরস্কার? একটি নির্ভরযোগ্য প্রযুক্তিগত ইন্টারভিউ পরীক্ষা।
২০২৪ সাল থেকে, অ্যানথ্রোপিকের পারফরম্যান্স অপটিমাইজেশন দল সম্ভাব্য কর্মীদের দক্ষতা যাচাই করার জন্য একটি টেক-হোম পরীক্ষার উপর নির্ভর করে। এটি ছিল ভালো কর্মীদের খারাপ কর্মীদের থেকে আলাদা করার একটি সরল উপায়, যা প্রকৃত কোডিং দক্ষতাসম্পন্ন প্রার্থীদের চিহ্নিত করত। কিন্তু এআই কোডিং সরঞ্জামগুলি, বিশেষ করে অ্যানথ্রোপিকের নিজস্ব ক্লড, দ্রুত উন্নত হওয়ার সাথে সাথে পরীক্ষাটি একটি পরিবর্তনশীল লক্ষ্যে পরিণত হয়েছে।
দলনেতা ট্রিস্টান হিউম সম্প্রতি একটি ব্লগ পোস্টে ব্যাখ্যা করেছেন, চ্যালেঞ্জটি হল ক্লড খুব বেশি ভালো হয়ে গেছে। মডেলের প্রতিটি পুনরাবৃত্তি মূল্যায়নের সম্পূর্ণ নতুন করে নকশা করতে বাধ্য করে। হিউম লিখেছেন, "প্রতিটি নতুন ক্লড মডেল আমাদের পরীক্ষাটি নতুন করে ডিজাইন করতে বাধ্য করেছে।" সমস্যাটি কেবল ক্লড পরীক্ষাটি সম্পূর্ণ করতে পারে তা নয়; এটি ব্যতিক্রমীভাবে ভালোভাবে সম্পূর্ণ করতে পারে। হিউমের মতে, ক্লড Opus 4 একই সময়ের মধ্যে বেশিরভাগ মানব আবেদনকারীর চেয়ে ভালো পারফর্ম করেছে। যদিও এটি প্রাথমিকভাবে অ্যানথ্রোপিককে শক্তিশালী প্রার্থীদের চিহ্নিত করতে দিয়েছিল, তবে ক্লড Opus 4.5 এর পরবর্তী প্রকাশ এমনকি শীর্ষ-স্তরের আবেদনকারীদের পারফরম্যান্সের সাথে মিলে গিয়ে বিষয়টিকে আরও অস্পষ্ট করে তুলেছে।
এটি একটি গুরুত্বপূর্ণ প্রার্থী মূল্যায়ন সমস্যা তৈরি করে। নজরদারির অভাবে টেক-হোম পরিবেশে, আবেদনকারীরা এআই সহায়তা নিচ্ছেন কিনা তা নিশ্চিত করার কোনও উপায় নেই। এবং যদি তারা তা করে, তবে তারা দ্রুত আবেদনকারীর তালিকায় শীর্ষে উঠে যেতে পারে, তাদের সহজাত দক্ষতার কারণে নয়, বরং একটি এআইকে কার্যকরভাবে প্রম্পট করার ক্ষমতার কারণে। হিউম স্বীকার করেছেন, "টেক-হোম পরীক্ষার সীমাবদ্ধতার মধ্যে, আমাদের শীর্ষ প্রার্থী এবং আমাদের সবচেয়ে সক্ষম মডেলের আউটপুটের মধ্যে পার্থক্য করার কোনও উপায় আমাদের কাছে ছিল না।"
অ্যানথ্রোপিকের পরিস্থিতি শিক্ষার ক্ষেত্রে একটি বৃহত্তর সংগ্রামের প্রতিচ্ছবি। বিশ্বজুড়ে স্কুল এবং বিশ্ববিদ্যালয়গুলি এআই-সহায়ক প্রতারণার প্রভাবের সাথে লড়াই করছে। শিক্ষার্থীরা এখন এআই ব্যবহার করে প্রবন্ধ লিখতে, জটিল সমীকরণ সমাধান করতে এবং এমনকি কোড তৈরি করতে পারে, যা ঐতিহ্যবাহী মূল্যায়ন পদ্ধতির বৈধতা নিয়ে প্রশ্ন তুলেছে। অ্যানথ্রোপিকের মতো একটি এআই ল্যাব একই সমস্যার মুখোমুখি হচ্ছে, যা এই সমস্যার ব্যাপকতাকে তুলে ধরে।
তবে, অ্যানথ্রোপিক এই চ্যালেঞ্জ মোকাবেলার জন্য বিশেষভাবে উপযুক্ত। একটি শীর্ষস্থানীয় এআই গবেষণা সংস্থা হিসাবে, এটির কাছে নতুন মূল্যায়ন পদ্ধতি তৈরি করার প্রযুক্তিগত দক্ষতা রয়েছে যা মানব এবং এআই-উত্পাদিত কাজের মধ্যে কার্যকরভাবে পার্থক্য করতে পারে। সংস্থাটি বিভিন্ন সমাধান অন্বেষণ করছে, যার মধ্যে আরও বেশি ওপেন-এন্ডেড, সৃজনশীল সমস্যা সমাধানের কাজ অন্তর্ভুক্ত করা হয়েছে যা এআইয়ের পক্ষে প্রতিলিপি করা কঠিন। তারা এআই-উত্পাদিত কোড সনাক্ত করার পদ্ধতিও অনুসন্ধান করছে, যদিও এটি ক্রমাগত বিকাশমান একটি ক্ষেত্র।
এই পরিস্থিতির প্রভাব প্রযুক্তিগত ইন্টারভিউয়ের বাইরেও বিস্তৃত। এআইয়ের ক্রমাগত উন্নতির সাথে সাথে মানুষের দক্ষতা এবং ক্ষমতা সঠিকভাবে মূল্যায়ন করা ক্রমশ কঠিন হয়ে পড়বে। এটি শিক্ষা, কর্মসংস্থান এবং এমনকি মানব বুদ্ধিমত্তার সংজ্ঞার উপর সুদূরপ্রসারী প্রভাব ফেলতে পারে।
অ্যানথ্রোপিকের প্রকৌশলী এবং তাদের এআই মডেলগুলির মধ্যে চলমান যুদ্ধ এআই যুগে মূল্যায়নের একটি মৌলিক পুনর্বিবেচনার প্রয়োজনীয়তা তুলে ধরে। এটি এমন একটি চ্যালেঞ্জ যার জন্য সৃজনশীলতা, উদ্ভাবন এবং দ্রুত পরিবর্তনশীল প্রযুক্তিগত ল্যান্ডস্কেপের সাথে খাপ খাইয়ে নেওয়ার ইচ্ছা প্রয়োজন। মূল্যায়নের ভবিষ্যৎ সম্ভবত যন্ত্রগুলোর থেকে একধাপ এগিয়ে থাকার আমাদের ক্ষমতার উপর নির্ভর করে।
Discussion
Join the conversation
Be the first to comment