OpenAI와 트레이닝 데이터 업체인 Handshake AI가 타사 계약업체들에게 과거 및 현재 역할에서 완료한 실제 업무 사례를 업로드하도록 요청하여 지적 재산권 및 데이터 개인 정보 보호에 대한 우려를 불러일으키고 있는 것으로 알려졌습니다. Wired의 보도에 따르면, 이러한 움직임은 AI 기업들이 계약업체를 활용하여 고품질 트레이닝 데이터를 생성하고, 궁극적으로 더 많은 화이트칼라 업무를 자동화하려는 광범위한 전략의 일환으로 보입니다.
OpenAI의 요청은 회사 프레젠테이션에 자세히 설명되어 있으며, 계약업체들에게 이전 직장에서 수행한 업무를 상세히 설명하고 문서, 프레젠테이션, 스프레드시트, 이미지 및 코드 저장소를 포함한 업무의 구체적인 예를 제공하도록 요청합니다. 회사는 계약업체들에게 파일을 업로드하기 전에 독점 정보 및 개인 식별 정보(PII)를 제거하도록 지시하고, 이 프로세스를 지원하기 위해 "ChatGPT Superstar Scrubbing tool"에 대한 액세스를 제공합니다.
이러한 움직임은 대규모 언어 모델(LLM) 트레이닝에서 데이터의 중요한 역할을 강조합니다. OpenAI의 GPT 시리즈와 같은 이러한 모델은 방대한 데이터 세트를 분석하여 인간 수준의 텍스트를 생성하는 방법을 학습합니다. 이 트레이닝 데이터의 품질과 관련성은 모델의 성능과 기능에 직접적인 영향을 미칩니다. AI 기업은 실제 전문 업무 사례를 사용하여 복잡한 작업을 자동화하는 데 있어 모델의 정확성과 효율성을 개선하는 것을 목표로 합니다.
그러나 이러한 관행은 중요한 법적 및 윤리적 문제를 제기합니다. 지적 재산권 변호사 Evan Brown은 Wired에 이 접근 방식이 AI 연구소에 상당한 위험을 초래한다고 말했습니다. 왜냐하면 이 접근 방식은 계약업체가 무엇이 기밀 정보인지 정확하게 판단하는 데 크게 의존하기 때문입니다. Brown은 "이러한 접근 방식을 취하는 모든 AI 연구소는 계약업체가 무엇이 기밀인지 아닌지를 결정하는 데 많은 신뢰를 요구하는 접근 방식으로 인해 큰 위험에 처하게 됩니다."라고 말했습니다.
OpenAI 대변인은 특정 이니셔티브에 대한 언급을 거부했습니다.
계약업체가 제공한 데이터의 사용은 AI 산업에서 증가하는 추세를 반영합니다. AI 모델이 더욱 정교해짐에 따라 고품질의 실제 트레이닝 데이터에 대한 수요가 증가합니다. 기업들은 합성 데이터 생성, 웹 스크래핑 및 데이터 제공업체와의 파트너십을 포함하여 이 데이터를 얻기 위한 다양한 방법을 모색하고 있습니다. 그러나 계약업체에 대한 의존은 데이터 보안, 개인 정보 보호 및 지적 재산권과 관련된 고유한 문제를 야기합니다.
이러한 데이터 수집 전략의 장기적인 영향은 아직 밝혀지지 않았습니다. 성공할 경우 화이트칼라 직업의 자동화를 가속화하여 다양한 산업 전반에 걸쳐 고용에 잠재적인 영향을 미칠 수 있습니다. 또한 실제 데이터의 사용은 AI 시스템의 편향 및 공정성에 대한 우려를 제기합니다. 트레이닝 데이터가 기존의 사회적 편견을 반영하는 경우 결과 AI 모델은 이러한 편견을 영속시키고 증폭시킬 수 있습니다.
OpenAI의 데이터 수집 이니셔티브의 현재 상태는 불분명합니다. 얼마나 많은 계약업체가 참여했는지 또는 수집된 데이터의 양은 알려지지 않았습니다. AI 기업이 이러한 전략을 계속 추구함에 따라 지적 재산권 및 개인 정보 보호를 위한 명확한 지침과 안전 장치의 필요성에 초점을 맞춰 규제 감시와 공개 토론이 강화될 가능성이 높습니다.
Discussion
대화에 참여하세요
첫 댓글을 남겨보세요