A ironia é tão densa que dá para cortar com uma bolacha de silício. Na Anthropic, a própria empresa que está a expandir os limites da inteligência artificial com os seus modelos Claude, os engenheiros estão presos numa corrida armamentista perpétua. O seu oponente? A sua própria criação. O prémio? Um teste de entrevista técnica fiável.
Desde 2024, a equipa de otimização de desempenho da Anthropic tem confiado num teste para fazer em casa para avaliar as competências de potenciais funcionários. Era uma forma direta de separar o trigo do joio, identificando candidatos com verdadeira proeza de programação. Mas, à medida que as ferramentas de programação de IA, particularmente o próprio Claude da Anthropic, avançaram rapidamente, o teste tornou-se um alvo móvel.
O desafio, como o líder da equipa, Tristan Hume, explicou numa recente publicação no blog, é que o Claude se tornou demasiado bom. Cada iteração do modelo força uma reformulação completa da avaliação. "Cada novo modelo Claude forçou-nos a redesenhar o teste", escreve Hume. O problema não é apenas que o Claude consegue concluir o teste; é que consegue concluí-lo excecionalmente bem. De acordo com Hume, o Claude Opus 4 superou a maioria dos candidatos humanos quando sujeito à mesma restrição de tempo. Embora isto inicialmente tenha permitido à Anthropic ainda identificar os candidatos mais fortes, o lançamento subsequente do Claude Opus 4.5 confundiu ainda mais as linhas, igualando o desempenho até mesmo daqueles candidatos de nível superior.
Isto apresenta um problema significativo de avaliação de candidatos. Num ambiente para fazer em casa, sem o olhar atento de um fiscal, não há forma de garantir que os candidatos não estão a usar assistência de IA. E se estiverem, podem subir rapidamente ao topo do grupo de candidatos, não por causa das suas competências inerentes, mas por causa da sua capacidade de solicitar eficazmente uma IA. "Sob as restrições do teste para fazer em casa, já não tínhamos forma de distinguir entre o resultado dos nossos melhores candidatos e o nosso modelo mais capaz", admite Hume.
A situação na Anthropic espelha uma luta mais ampla que se desenrola na educação. Escolas e universidades em todo o mundo estão a lidar com as implicações das fraudes assistidas por IA. Os alunos podem agora usar a IA para escrever ensaios, resolver equações complexas e até gerar código, levantando questões sobre a validade dos métodos de avaliação tradicionais. O facto de um laboratório de IA como a Anthropic estar a enfrentar um dilema semelhante sublinha a abrangência da questão.
No entanto, a Anthropic está numa posição única para enfrentar este desafio. Como uma empresa líder em pesquisa de IA, possui a experiência técnica para desenvolver métodos de avaliação inovadores que podem efetivamente diferenciar entre o trabalho gerado por humanos e por IA. A empresa está a explorar várias soluções, incluindo a incorporação de tarefas de resolução de problemas mais abertas e criativas que são difíceis de replicar para a IA. Também estão a investigar métodos para detetar código gerado por IA, embora este seja um campo em constante evolução.
As implicações desta situação estendem-se para além do domínio das entrevistas técnicas. À medida que a IA continua a avançar, tornar-se-á cada vez mais difícil avaliar as competências e capacidades humanas com precisão. Isto poderá ter consequências de longo alcance para a educação, o emprego e até mesmo a própria definição de inteligência humana.
A batalha contínua entre os engenheiros da Anthropic e os seus modelos de IA destaca a necessidade de uma reconsideração fundamental da avaliação na era da IA. É um desafio que exigirá criatividade, inovação e uma vontade de se adaptar a um cenário tecnológico em rápida mudança. O futuro da avaliação pode muito bem depender da nossa capacidade de ficar um passo à frente das máquinas.
Discussion
Join the conversation
Be the first to comment