OpenAIの機密文書によると、同社は「フルタイムの仕事で行ってきた業務をモデルにした現実世界のタスクを収集するために、さまざまな職種の人々を雇用し、AIモデルがこれらのタスクでどれだけうまく機能するかを測定できるようにする」という。文書では、契約者に「あなたの職業で行ってきた長期または複雑な作業(数時間または数日)の既存のものを取得し、それぞれをタスクに変えてください」と指示している。
この取り組みは、汎用人工知能(AGI)の達成に向けた進捗状況を評価するためのOpenAIのより広範な取り組みの一環である。9月、OpenAIは、多様な業界の専門家と比較してAIモデルのパフォーマンスを比較することに焦点を当てた新しい評価プロセスを開始した。OpenAIは、AGIを、ほとんどの経済的に価値のあるタスクにおいて人間の能力を超えるAIシステムと定義している。
これらの現実世界のタスクから収集されたデータは、OpenAIのAIモデルをトレーニングおよび改良するために使用され、複雑な割り当てをより良く理解し、実行できるようになる。AIのパフォーマンスを人間のベースラインと比較することにより、OpenAIは、モデルが優れている領域と、さらなる改善が必要な領域を特定したいと考えている。このアプローチは、さまざまな専門的なタスクを効果的に強化または自動化できるAIシステムを開発するために不可欠である。
AGIの達成がもたらす影響は広範囲に及び、産業を変革し、仕事の性質を再構築する可能性がある。AGIの開発は、生産性とイノベーションの向上など、大きなメリットをもたらす一方で、雇用の喪失や、ますます自律的なAIシステムの倫理的考慮事項に関する懸念も提起している。AIのパフォーマンスを人間の能力と比較してベンチマークするOpenAIの取り組みは、これらの複雑な問題を理解し、対処するためのステップである。
プロジェクトの現在のステータスには、継続的なデータ収集と分析が含まれる。OpenAIは、人間のベースラインに対するモデルのパフォーマンスに関する具体的な詳細はまだ公開していない。ただし、同社は、AGIの達成という目標に向けて進むにつれて、評価プロセスを継続的に改善し、新しいデータを組み込んでいくと予想される。次の展開には、収集されたデータに基づくAIモデルのさらなる反復と、より広範なタスクにわたるパフォーマンスの継続的な評価が含まれる可能性が高い。
Discussion
Join the conversation
Be the first to comment