OpenAIは、次世代AIモデルの性能を評価するため、第三者の契約業者に対し、現在または過去の職務における実際の課題やタスクをアップロードするよう依頼している。WIREDがOpenAIとトレーニングデータ企業Handshake AIから入手した文書によると、このプロジェクトの目的は、さまざまなタスクにおける人間のパフォーマンスの基準を確立し、それをAIモデルの能力評価に利用することである。
この取り組みは、OpenAIが9月に開始した、多様な業界の専門家と比較してAIモデルを評価するという広範な取り組みの一環である。同社は、この比較を、ほとんどの経済的に価値のあるタスクにおいて人間の能力を超えるAIシステムとして定義される、汎用人工知能(AGI)の達成に向けた進捗を測る上で重要な指標と見なしている。
OpenAIの機密文書によると、「フルタイムの仕事であなたがしてきたことをモデルにした現実世界のタスクを収集するために、さまざまな職種の担当者を雇用しました。これにより、AIモデルがこれらのタスクをどれだけうまく実行できるかを測定できます。」この文書は契約業者に対し、「あなたの職業で実行した長期または複雑な作業(数時間または数日)の既存のものを取得し、それぞれをタスクに変えてください」と指示している。
このデータ収集戦略は、AI開発における重要な課題、つまりAIが現実世界のタスクを実行する能力を正確に評価することに焦点を当てている。OpenAIは、実際の作業から得られた人間の基準と比較してAIのパフォーマンスを評価することにより、モデルの強みと弱みについて、よりニュアンスのある理解を得ることを目指している。このアプローチは、AIシステムが専門的な環境にますます統合されるにつれて、特に関連性が高くなる。
AGIの達成がもたらす影響は広範囲に及び、産業を変革し、仕事の性質を再構築する可能性がある。OpenAIは、生産性とイノベーションの向上など、AGIの潜在的な利点を強調する一方で、雇用の喪失や、ますます自律的なAIシステムの倫理的考慮事項に関する懸念も提起している。
OpenAIの評価プロセスは、ますます強力になるAIシステムをどのように最適に測定および制御するかについての、AIコミュニティ内での継続的な議論を反映している。AIモデルがより洗練されるにつれて、信頼できるベンチマークと安全プロトコルを確立することは、責任ある開発と展開を確実にするために不可欠である。同社は、収集されているタスクの種類やAIのパフォーマンスを評価するために使用される基準に関する具体的な詳細は公表していないが、データは将来のAIモデルの精度と信頼性を向上させるために使用されると述べている。プロジェクトは進行中であり、評価の結果はOpenAIでの将来の開発努力に役立つと期待されている。
Discussion
Join the conversation
Be the first to comment