아이러니가 실리콘 웨이퍼로 자를 수 있을 만큼 짙다. Anthropic에서는 Claude 모델로 인공지능의 경계를 넓히고 있는 바로 그 회사에서 엔지니어들이 끊임없는 군비 경쟁에 갇혀 있다. 그들의 상대는? 그들 자신의 창조물이다. 상은? 신뢰할 수 있는 기술 면접 시험이다.
2024년부터 Anthropic의 성능 최적화 팀은 잠재적 직원의 기술을 측정하기 위해 집에서 치르는 시험에 의존해 왔다. 이는 알곡과 쭉정이를 가려내고 진정한 코딩 능력을 가진 지원자를 식별하는 간단한 방법이었다. 그러나 AI 코딩 도구, 특히 Anthropic 자체의 Claude가 빠르게 발전함에 따라 시험은 움직이는 표적이 되었다.
팀 리더인 Tristan Hume이 최근 블로그 게시물에서 설명했듯이 문제는 Claude가 너무 능숙해졌다는 것이다. 모델의 각 반복은 평가의 완전한 재설계를 강요한다. Hume은 "새로운 Claude 모델이 나올 때마다 시험을 재설계해야 했습니다."라고 썼다. 문제는 Claude가 시험을 완료할 수 있다는 것뿐만 아니라 매우 훌륭하게 완료할 수 있다는 것이다. Hume에 따르면 Claude Opus 4는 동일한 시간 제약 조건이 주어졌을 때 대부분의 인간 지원자보다 뛰어난 성능을 보였다. 이로 인해 Anthropic은 여전히 가장 강력한 지원자를 식별할 수 있었지만, 이후 Claude Opus 4.5의 릴리스는 최고 수준의 지원자의 성능과 일치하여 경계를 더욱 모호하게 만들었다.
이는 중요한 지원자 평가 문제를 야기한다. 감독관의 감시 없이 집에서 치르는 환경에서는 지원자가 AI 지원을 활용하지 않는다는 것을 보장할 방법이 없다. 그리고 만약 그렇다면, 그들은 자신의 고유한 기술 때문이 아니라 AI를 효과적으로 프롬프트하는 능력 때문에 지원자 풀의 상위권으로 빠르게 올라갈 수 있다. Hume은 "집에서 치르는 시험의 제약 조건 하에서 우리는 더 이상 최고의 지원자의 결과물과 가장 유능한 모델의 결과물을 구별할 수 없었습니다."라고 인정한다.
Anthropic의 상황은 교육에서 벌어지고 있는 더 광범위한 투쟁을 반영한다. 전 세계의 학교와 대학은 AI 지원 부정 행위의 영향과 씨름하고 있다. 학생들은 이제 AI를 사용하여 에세이를 쓰고, 복잡한 방정식을 풀고, 심지어 코드를 생성할 수 있으므로 기존 평가 방법의 타당성에 대한 의문이 제기된다. Anthropic과 같은 AI 연구소가 비슷한 딜레마에 직면하고 있다는 사실은 문제의 광범위성을 강조한다.
그러나 Anthropic은 이 문제를 해결할 수 있는 독보적인 위치에 있다. 선도적인 AI 연구 회사로서 인간과 AI가 생성한 작업을 효과적으로 구별할 수 있는 새로운 평가 방법을 개발할 수 있는 기술 전문 지식을 보유하고 있다. 회사는 AI가 복제하기 어려운 보다 개방적이고 창의적인 문제 해결 과제를 통합하는 것을 포함하여 다양한 솔루션을 모색하고 있다. 또한 AI 생성 코드를 탐지하는 방법도 조사하고 있지만 이는 끊임없이 진화하는 분야이다.
이 상황의 영향은 기술 면접의 영역을 넘어선다. AI가 계속 발전함에 따라 인간의 기술과 능력을 정확하게 평가하는 것이 점점 더 어려워질 것이다. 이는 교육, 고용, 심지어 인간 지능의 정의에까지 광범위한 영향을 미칠 수 있다.
Anthropic 엔지니어와 AI 모델 간의 지속적인 싸움은 AI 시대에 평가에 대한 근본적인 재고의 필요성을 강조한다. 이는 창의성, 혁신, 빠르게 변화하는 기술 환경에 적응하려는 의지가 필요한 과제이다. 평가의 미래는 우리가 기계보다 한발 앞서 나갈 수 있는 능력에 달려 있을 수 있다.
Discussion
대화에 참여하세요
첫 댓글을 남겨보세요