OpenAIとトレーニングデータ企業Handshake AIが、第三者の契約業者に対し、過去および現在の職務で完了した実際の業務事例をアップロードするよう要請していると報じられており、知的財産とデータプライバシーに関する懸念が高まっています。Wiredの報道によると、この取り組みは、AI企業が契約業者を活用して高品質なトレーニングデータを生成し、最終的にはより多くのホワイトカラー業務を自動化するという、より広範な戦略の一環であるようです。
OpenAIの要請は、社内プレゼンテーションで概説されており、契約業者に対し、以前の職務で実行したタスクの詳細と、文書、プレゼンテーション、スプレッドシート、画像、コードリポジトリなど、具体的な業務事例を提供するよう求めています。同社は契約業者に対し、これらのファイルをアップロードする前に、機密情報および個人情報(PII)を削除するよう指示し、このプロセスを支援するために「ChatGPT Superstar Scrubbing tool」へのアクセスを提供しています。
この動きは、大規模言語モデル(LLM)のトレーニングにおけるデータの重要な役割を浮き彫りにしています。OpenAIのGPTシリーズのようなこれらのモデルは、膨大なデータセットを分析することで、人間品質のテキストを生成することを学習します。このトレーニングデータの品質と関連性は、モデルのパフォーマンスと能力に直接影響します。AI企業は、専門的な業務の実際の事例を使用することで、複雑なタスクを自動化する際のモデルの精度と有効性を向上させることを目指しています。
しかし、この慣行は重大な法的および倫理的な問題を提起します。知的財産弁護士のエヴァン・ブラウン氏はWiredに対し、このアプローチは、機密情報を構成するものを正確に判断することを契約業者に大きく依存しているため、AI研究所にとって大きなリスクをもたらすと語りました。「このアプローチを採用するAI研究所は、何が機密情報であるかを判断するために契約業者への多大な信頼を必要とするアプローチで、自らを大きなリスクにさらしています」とブラウン氏は述べています。
OpenAIの広報担当者は、この特定の取り組みについてコメントを控えています。
契約業者が提供するデータの使用は、AI業界における成長傾向を反映しています。AIモデルがより洗練されるにつれて、高品質で現実世界のトレーニングデータに対する需要が高まっています。企業は、合成データ生成、ウェブスクレイピング、データプロバイダーとの提携など、このデータを取得するためのさまざまな方法を模索しています。しかし、契約業者への依存は、データセキュリティ、プライバシー、および知的財産権に関連する独自の問題を引き起こします。
このデータ収集戦略の長期的な影響は、まだ明らかになっていません。成功すれば、ホワイトカラーの仕事の自動化を加速させ、さまざまな業界の雇用に影響を与える可能性があります。さらに、現実世界のデータの使用は、AIシステムの偏見と公平性に関する懸念を引き起こします。トレーニングデータが既存の社会的な偏見を反映している場合、結果として得られるAIモデルは、これらの偏見を永続させ、増幅させる可能性があります。
OpenAIのデータ収集イニシアチブの現状は不明です。これまでに何人の契約業者が参加したか、または収集されたデータの量は不明です。AI企業がこの戦略を追求し続けるにつれて、知的財産と個人のプライバシーを保護するための明確なガイドラインと保護措置の必要性に焦点を当てて、規制当局の監視と世論の議論が激化する可能性があります。
Discussion
Join the conversation
Be the first to comment