L'ironie est si épaisse qu'on pourrait la couper avec une tranche de silicium. Chez Anthropic, l'entreprise même qui repousse les limites de l'intelligence artificielle avec ses modèles Claude, les ingénieurs sont enfermés dans une course à l'armement perpétuelle. Leur adversaire ? Leur propre création. Le prix ? Un test d'entretien technique fiable.
Depuis 2024, l'équipe d'optimisation des performances d'Anthropic s'appuie sur un test à domicile pour évaluer les compétences des candidats potentiels. C'était un moyen simple de séparer le bon grain de l'ivraie, en identifiant les candidats dotés de véritables prouesses en matière de codage. Mais à mesure que les outils de codage IA, en particulier Claude d'Anthropic, ont rapidement progressé, le test est devenu une cible mouvante.
Le défi, comme l'a expliqué le chef d'équipe Tristan Hume dans un récent article de blog, est que Claude est devenu trop bon. Chaque itération du modèle force une refonte complète de l'évaluation. "Chaque nouveau modèle Claude nous a forcés à repenser le test", écrit Hume. Le problème n'est pas seulement que Claude peut réussir le test ; c'est qu'il peut le réussir exceptionnellement bien. Selon Hume, Claude Opus 4 a surpassé la plupart des candidats humains lorsqu'on lui a imposé les mêmes contraintes de temps. Bien que cela ait initialement permis à Anthropic d'identifier les candidats les plus compétents, la publication ultérieure de Claude Opus 4.5 a encore davantage brouillé les pistes, égalant les performances même de ces candidats de premier plan.
Cela pose un problème important d'évaluation des candidats. Dans un environnement de test à domicile, sans l'œil vigilant d'un surveillant, il n'y a aucun moyen de garantir que les candidats n'utilisent pas l'aide de l'IA. Et s'ils le font, ils pourraient rapidement se hisser au sommet du bassin de candidats, non pas en raison de leurs compétences intrinsèques, mais en raison de leur capacité à solliciter efficacement une IA. "Dans le cadre du test à domicile, nous n'avions plus aucun moyen de distinguer le résultat de nos meilleurs candidats de celui de notre modèle le plus performant", admet Hume.
La situation chez Anthropic reflète une lutte plus large qui se déroule dans le domaine de l'éducation. Les écoles et les universités du monde entier sont aux prises avec les implications de la tricherie assistée par l'IA. Les étudiants peuvent désormais utiliser l'IA pour rédiger des essais, résoudre des équations complexes et même générer du code, ce qui soulève des questions sur la validité des méthodes d'évaluation traditionnelles. Le fait qu'un laboratoire d'IA comme Anthropic soit confronté à un dilemme similaire souligne la généralisation du problème.
Cependant, Anthropic est particulièrement bien placé pour relever ce défi. En tant qu'entreprise de recherche en IA de premier plan, elle possède l'expertise technique nécessaire pour développer de nouvelles méthodes d'évaluation capables de différencier efficacement le travail généré par l'homme et celui généré par l'IA. L'entreprise explore diverses solutions, notamment l'intégration de tâches de résolution de problèmes plus ouvertes et créatives, difficiles à reproduire pour l'IA. Elle étudie également des méthodes de détection du code généré par l'IA, bien qu'il s'agisse d'un domaine en constante évolution.
Les implications de cette situation dépassent le cadre des entretiens techniques. À mesure que l'IA continue de progresser, il deviendra de plus en plus difficile d'évaluer avec précision les compétences et les aptitudes humaines. Cela pourrait avoir des conséquences considérables sur l'éducation, l'emploi et même sur la définition même de l'intelligence humaine.
La bataille en cours entre les ingénieurs d'Anthropic et leurs modèles d'IA souligne la nécessité d'une refonte fondamentale de l'évaluation à l'ère de l'IA. C'est un défi qui nécessitera de la créativité, de l'innovation et une volonté de s'adapter à un paysage technologique en évolution rapide. L'avenir de l'évaluation pourrait bien dépendre de notre capacité à garder une longueur d'avance sur les machines.
Discussion
Join the conversation
Be the first to comment