Ирония настолько густая, что ее можно резать кремниевой пластиной. В Anthropic, компании, которая раздвигает границы искусственного интеллекта с помощью своих моделей Claude, инженеры участвуют в вечной гонке вооружений. Их противник? Их собственное творение. Приз? Надежный тест для технического собеседования.
С 2024 года команда оптимизации производительности Anthropic полагается на домашнее задание, чтобы оценить навыки потенциальных сотрудников. Это был простой способ отделить зерна от плевел, выявляя кандидатов с подлинным мастерством программирования. Но по мере того, как инструменты для кодирования с помощью ИИ, особенно собственный Claude от Anthropic, быстро развивались, тест стал движущейся мишенью.
Проблема, как объяснил руководитель группы Тристан Хьюм в недавнем сообщении в блоге, заключается в том, что Claude стал слишком хорош. Каждая итерация модели заставляет полностью перерабатывать оценку. «Каждая новая модель Claude заставляла нас переделывать тест», — пишет Хьюм. Проблема не только в том, что Claude может выполнить тест; дело в том, что он может выполнить его исключительно хорошо. По словам Хьюма, Claude Opus 4 превзошел большинство кандидатов-людей, когда им было дано то же ограничение по времени. Хотя это первоначально позволило Anthropic по-прежнему выявлять самых сильных кандидатов, последующий выпуск Claude Opus 4.5 еще больше размыл границы, сравнившись по производительности даже с этими кандидатами высшего уровня.
Это представляет собой серьезную проблему оценки кандидатов. В домашней обстановке, без пристального взгляда экзаменатора, невозможно гарантировать, что кандидаты не используют помощь ИИ. И если они это делают, они могут быстро подняться на вершину пула кандидатов не из-за своих врожденных навыков, а из-за своей способности эффективно запрашивать ИИ. «В условиях домашнего задания у нас больше не было способа отличить результаты наших лучших кандидатов от нашей самой способной модели», — признает Хьюм.
Ситуация в Anthropic отражает более широкую борьбу, происходящую в образовании. Школы и университеты по всему миру борются с последствиями списывания с помощью ИИ. Теперь студенты могут использовать ИИ для написания эссе, решения сложных уравнений и даже генерации кода, что ставит под сомнение обоснованность традиционных методов оценки. Тот факт, что лаборатория ИИ, такая как Anthropic, сталкивается с аналогичной дилеммой, подчеркивает распространенность этой проблемы.
Однако Anthropic имеет уникальные возможности для решения этой проблемы. Являясь ведущей исследовательской компанией в области ИИ, она обладает техническим опытом для разработки новых методов оценки, которые могут эффективно различать работу, созданную человеком и ИИ. Компания изучает различные решения, в том числе включение более открытых, творческих задач по решению проблем, которые трудно воспроизвести ИИ. Они также изучают методы обнаружения кода, сгенерированного ИИ, хотя это постоянно развивающаяся область.
Последствия этой ситуации выходят за рамки технических собеседований. По мере того, как ИИ продолжает развиваться, будет становиться все труднее точно оценивать человеческие навыки и способности. Это может иметь далеко идущие последствия для образования, занятости и даже для самого определения человеческого интеллекта.
Продолжающаяся битва между инженерами Anthropic и их моделями ИИ подчеркивает необходимость фундаментального переосмысления оценки в эпоху ИИ. Это вызов, который потребует творчества, инноваций и готовности адаптироваться к быстро меняющемуся технологическому ландшафту. Будущее оценки вполне может зависеть от нашей способности оставаться на шаг впереди машин.
Discussion
Join the conversation
Be the first to comment