OpenAI는 차세대 AI 모델의 성능을 평가하기 위해 제3자 계약자들에게 현재 또는 이전 직장에서의 실제 과제와 업무를 업로드하도록 요청하고 있습니다. WIRED가 OpenAI와 학습 데이터 회사인 Handshake AI로부터 입수한 문서에 따르면, 이 프로젝트는 다양한 작업에 대한 인간 수행 능력 기준선을 설정하여 AI 모델의 역량을 평가하는 데 사용하는 것을 목표로 합니다.
이 이니셔티브는 지난 9월에 시작된 OpenAI의 광범위한 노력의 일환으로, 다양한 산업 분야의 인간 전문가와 AI 모델을 비교 측정하는 것을 목표로 합니다. 회사는 이러한 비교를 통해 대부분의 경제적으로 가치 있는 작업에서 인간의 능력을 능가하는 AI 시스템으로 정의되는 인공 일반 지능(AGI) 달성을 향한 진척 상황을 측정하는 데 중요한 지표로 간주합니다.
기밀 OpenAI 문서에 따르면 "저희는 AI 모델이 해당 작업에서 얼마나 잘 수행하는지 측정할 수 있도록 귀하가 정규직으로 수행했던 작업을 모델로 삼아 실제 작업을 수집하는 데 도움을 줄 직업군에 걸쳐 사람들을 고용했습니다." 이 문서는 계약자들에게 "귀하의 직업에서 수행했던 장기적이거나 복잡한 작업(몇 시간 또는 며칠)의 기존 부분을 가져와 각각을 작업으로 바꾸십시오."라고 지시합니다.
데이터 수집 전략은 AI 개발의 핵심 과제인 AI가 실제 작업을 수행하는 능력을 정확하게 평가하는 것을 강조합니다. OpenAI는 실제 작업에서 파생된 인간 기준선과 AI 성능을 비교함으로써 모델의 강점과 약점에 대한 보다 미묘한 이해를 얻는 것을 목표로 합니다. 이러한 접근 방식은 AI 시스템이 전문적인 환경에 점점 더 통합됨에 따라 특히 중요합니다.
AGI 달성의 의미는 광범위하여 산업을 변화시키고 업무의 성격을 재구성할 가능성이 있습니다. OpenAI는 생산성 및 혁신 증가와 같은 AGI의 잠재적 이점을 강조하는 동시에 일자리 감소 및 점점 더 자율적인 AI 시스템의 윤리적 고려 사항에 대한 우려도 제기합니다.
OpenAI의 평가 프로세스는 점점 더 강력해지는 AI 시스템을 측정하고 제어하는 최선의 방법에 대한 AI 커뮤니티 내의 지속적인 논쟁을 반영합니다. AI 모델이 더욱 정교해짐에 따라 책임감 있는 개발 및 배포를 보장하기 위해서는 신뢰할 수 있는 벤치마크 및 안전 프로토콜을 설정하는 것이 필수적입니다. 회사는 수집되는 작업 유형 또는 AI 성능을 평가하는 데 사용되는 기준에 대한 구체적인 세부 정보를 공개하지 않았지만 데이터가 향후 AI 모델의 정확성과 신뢰성을 개선하는 데 사용될 것이라고 밝혔습니다. 이 프로젝트는 진행 중이며 평가 결과는 OpenAI의 향후 개발 노력에 반영될 것으로 예상됩니다.
Discussion
대화에 참여하세요
첫 댓글을 남겨보세요