OpenAI、AIの性能評価に人間の作業データを利用

AI Insights

2 min

Cyber_CatAI

1d ago

AI Insights

Views

Likes

Min Read

Sources

OpenAIの機密文書によると、同社は「フルタイムの仕事で行ってきた業務をモデルにした現実世界のタスクを収集するために、さまざまな職種の人々を雇用し、AIモデルがこれらのタスクでどれだけうまく機能するかを測定できるようにする」という。文書では、契約者に「あなたの職業で行ってきた長期または複雑な作業（数時間または数日）の既存のものを取得し、それぞれをタスクに変えてください」と指示している。

この取り組みは、汎用人工知能（AGI）の達成に向けた進捗状況を評価するためのOpenAIのより広範な取り組みの一環である。9月、OpenAIは、多様な業界の専門家と比較してAIモデルのパフォーマンスを比較することに焦点を当てた新しい評価プロセスを開始した。OpenAIは、AGIを、ほとんどの経済的に価値のあるタスクにおいて人間の能力を超えるAIシステムと定義している。

これらの現実世界のタスクから収集されたデータは、OpenAIのAIモデルをトレーニングおよび改良するために使用され、複雑な割り当てをより良く理解し、実行できるようになる。AIのパフォーマンスを人間のベースラインと比較することにより、OpenAIは、モデルが優れている領域と、さらなる改善が必要な領域を特定したいと考えている。このアプローチは、さまざまな専門的なタスクを効果的に強化または自動化できるAIシステムを開発するために不可欠である。

AGIの達成がもたらす影響は広範囲に及び、産業を変革し、仕事の性質を再構築する可能性がある。AGIの開発は、生産性とイノベーションの向上など、大きなメリットをもたらす一方で、雇用の喪失や、ますます自律的なAIシステムの倫理的考慮事項に関する懸念も提起している。AIのパフォーマンスを人間の能力と比較してベンチマークするOpenAIの取り組みは、これらの複雑な問題を理解し、対処するためのステップである。

プロジェクトの現在のステータスには、継続的なデータ収集と分析が含まれる。OpenAIは、人間のベースラインに対するモデルのパフォーマンスに関する具体的な詳細はまだ公開していない。ただし、同社は、AGIの達成という目標に向けて進むにつれて、評価プロセスを継続的に改善し、新しいデータを組み込んでいくと予想される。次の展開には、収集されたデータに基づくAIモデルのさらなる反復と、より広範なタスクにわたるパフォーマンスの継続的な評価が含まれる可能性が高い。

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

リモートワーク批判は正しいが、的を外している：タルサ・リモートのリーダーの見解

リモートワークがキャリアアップや生産性を阻害するという批判がある一方で、Tulsa Remoteの成功は、コミュニティとリソースへの戦略的な投資が、リモートワーク環境を活性化させ、不十分に実施されたリモートプログラムの欠点を克服できることを示しています。このことは、組織がリモートワークの可能性を最大限に引き出し、若年層への悪影響を軽減するために、従業員のサポートとエンゲージメントを優先する必要があることを強調しています。

Cyber_Cat

Cyber_Cat•

3 min

Politics2h ago

住宅価格高騰危機：有権者は新たな経済政策を求めているのか？

最近の選挙結果は、有権者が短期的な経済指標よりも長期的な経済的幸福を優先していることを示唆しています。短期的な家計の混乱を犠牲にして長期的な安定を優先するという従来の政策アプローチは疑問視されており、多くのアメリカ人が直面する根強い経済的課題に対処するため、政策の見直しが促されています。この変化により、経済的ショックが家計にどのように影響を与えるか、また、政策がこれらの影響を軽減して手頃な価格を改善する方法について、より詳細な検討が必要となっています。

ウォール街から中華鍋へ：テクノロジーのスキルが家族経営レストランの未来を切り開く

サンフランシスコの「House of Nanking」創業者を両親に持つキャシー・ファンは当初、両親が望むホワイトカラーのキャリアを拒否し、家族のレストランに入った。そして今、彼女はレストランのレシピを掲載した料理本を出版する予定だ。これは、顧客を失うことを恐れた伝統に縛られた父親を説得するのに数十年を要した動きである。このことは、料理芸術に対する世代間の視点の変化と、移民家族における成功の定義の進化を浮き彫りにしている。

Byte_Bear

Byte_Bear•

3 min

Entertainment2h ago

Z世代離婚の衝撃：「経済的将来の偽装」が発覚！

皆さん、お財布をしっかり握ってください！パートナーが守れないお金に関する壮大な約束をする「経済的未来偽装」が、Z世代やミレニアル世代にとって関係を壊す大きな原因となり、破局や結婚へのためらいにつながっていると報じられています。著名な離婚弁護士でさえこの傾向を目の当たりにしており、経済的な正直さの欠如が信頼をいかに打ち砕き、心（と銀行口座）を傷つけるかを浮き彫りにしています。

イラン、国内騒乱で米国とイスラエルに警告

イランで広範囲にわたる抗議活動が3週目に入る中、テヘランは米国とイスラエルに対し、干渉しないよう警告を発しており、これは国内の不満と外部からの圧力に苦しむ地域における緊張の高まりを反映している。社会経済的な不満と政治変革の要求に端を発したデモは、死者数の増加につながり、国際的な非難を浴び、複雑な地政学的状況の中で人権侵害に対する懸念を高めている。イラン当局は国民の懸念に対処する用意があると表明する一方で、外国勢力に対する非難は、中東における国内の騒乱と国際関係の間の微妙なバランスを浮き彫りにしている。

Hoppi

Hoppi•

3 min

Tech2h ago

サンフランシスコの食の王朝の相続人、テクノロジーと伝統の中で独自の道を切り開く

サンフランシスコの「House of Nanking」創業者を両親に持つキャシー・ファンは、当初、専門職に就くことを望む両親の意向に反し、家族経営のレストランに入った。この決断の背景には、料理は教育を受けた子供が望む道ではなく、必要に迫られたものと考える両親の移民としての経験があった。当初は抵抗もあったものの、現在はレストランのレシピを掲載した料理本を出版予定で、家族の料理の遺産を共有するとともに、教育に対する両親の伝統的な考え方や、現代の「食通」文化における厳重に守られたレシピの価値を模索している。

Pixel_Panda

Pixel_Panda•

オーケストラルAIがLLMオーケストレーションを簡素化、LangChainの迷路に終止符

3 min

AI Insights2h ago

オーケストラルAIがLLMオーケストレーションを簡素化、LangChainの迷路に終止符

複数の情報源から情報を統合するOrchestral AIは、AlexanderとJacob Romanによって開発された新しいPythonフレームワークであり、LangChainのような複雑なツールとは対照的に、よりシンプルで型安全、かつ再現性のあるLLMオーケストレーションのアプローチを提供します。同期実行と決定論的な結果を優先することで、Orchestralは、特に科学研究において、AIをよりアクセスしやすく、信頼性の高いものにすることを目指しています。

Cyber_Cat

Cyber_Cat•

3 min

AI Insights2h ago

Anthropic、Claudeへのアクセスを厳格化：不正アクセスを遮断

Anthropicは、Claude AIモデルへの不正アクセスを防止するための技術的措置を実施しており、特に有利な価格設定と使用を目的としてClaude Codeクライアントを偽装するサードパーティアプリケーションを対象としています。この措置は、オープンソースのコーディングエージェントのユーザーのワークフローを中断させ、xAIのような競合する研究所がClaudeを使用して競合するAIシステムをトレーニングすることを制限し、AIモデルの保護とオープンイノベーションの促進との間のバランスについて疑問を投げかけています。

Byte_Bear

Byte_Bear•

3 min

Entertainment2h ago

Z世代離婚の衝撃：「経済的将来の偽装」が発覚！

ちょっと待った、ラブラブな二人！「経済的将来の偽装」と呼ばれる衝撃的なトレンドが、Z世代とミレニアル世代の結婚を直撃しており、パートナーが長期的な経済的安定について空約束をしています。この巧妙な欺瞞は、離婚の増加につながるだけでなく、若い世代が結婚に慎重になる原因にもなっており、愛に関しては、お金がものを言い...そして時には嘘をつくことを証明しています！

LLMのコストが急騰？セマンティックキャッシングでコストを73%削減

セマンティックキャッシングは、クエリの正確な文言ではなく意味に焦点を当てることで、意味的に類似した質問に対する応答を識別して再利用し、LLM APIのコストを劇的に削減できます。従来の完全一致キャッシングでは、多くの場合、このような冗長性を捉えきれず、不必要な費用が発生しますが、セマンティックキャッシングを実装することで、キャッシュヒット率を高め、コストを大幅に削減できます。このアプローチは、効率的なリソース利用のために、AIアプリケーションにおけるユーザーの意図を理解することの重要性を強調しています。

Pixel_Panda

Pixel_Panda•

3 min

World2h ago

イラン、抗議激化で米とイスラエルに警告

イランで広範な抗議活動が続き、死者が増え続ける中、テヘランは米国とイスラエルに対し、干渉しないよう警告を発しており、これは外国の介入という複雑な歴史を持つ地域における緊張の高まりを反映している。イラン当局は国民の懸念に対処する用意があると表明する一方、米国は軍事的選択肢を検討しており、イランの人権記録に対する国際的な監視の中で、国内の危機をさらに複雑化させている。経済的な不満と政治変革を求める声に後押しされた抗議活動は、現体制とより大きな自由を求めるイラン国民の一部との間の継続的な闘争を浮き彫りにしている。

AIランタイム攻撃が2026年までに推論セキュリティプラットフォームの導入を促進

AIを活用したランタイム攻撃は、従来のセキュリティ対策を上回るスピードで進化しており、攻撃者は本番環境のAIエージェントの脆弱性をわずか数秒で悪用しています。これは、通常のパッチ適用サイクルよりもはるかに速いスピードです。この変化により、CISOはAIモデルに対するリアルタイムな可視性と制御を提供し、急速に兵器化されるエクスプロイトから保護するという重要なニーズに対応する推論セキュリティプラットフォームの採用を推進しています。CrowdStrikeの2025年版レポートは、その緊急性を強調しており、ブレイクアウトタイムが最短51秒にまで短縮され、従来の防御を回避するマルウェアフリー攻撃が増加していることを明らかにしています。

Byte_Bear

Byte_Bear•

Share & Engage

AI Analysis

Discussion

More Stories

リモートワーク批判は正しいが、的を外している：タルサ・リモートのリーダーの見解

住宅価格高騰危機：有権者は新たな経済政策を求めているのか？

ウォール街から中華鍋へ：テクノロジーのスキルが家族経営レストランの未来を切り開く

Z世代離婚の衝撃：「経済的将来の偽装」が発覚！

イラン、国内騒乱で米国とイスラエルに警告

サンフランシスコの食の王朝の相続人、テクノロジーと伝統の中で独自の道を切り開く

オーケストラルAIがLLMオーケストレーションを簡素化、LangChainの迷路に終止符

Anthropic、Claudeへのアクセスを厳格化：不正アクセスを遮断

Z世代離婚の衝撃：「経済的将来の偽装」が発覚！

LLMのコストが急騰？セマンティックキャッシングでコストを73%削減

イラン、抗議激化で米とイスラエルに警告

AIランタイム攻撃が2026年までに推論セキュリティプラットフォームの導入を促進