La ironía es tan densa que se podría cortar con una oblea de silicio. En Anthropic, la misma empresa que está superando los límites de la inteligencia artificial con sus modelos Claude, los ingenieros están encerrados en una perpetua carrera armamentista. ¿Su oponente? Su propia creación. ¿El premio? Una prueba de entrevista técnica fiable.
Desde 2024, el equipo de optimización del rendimiento de Anthropic ha confiado en una prueba para llevarse a casa para evaluar las habilidades de los posibles empleados. Era una forma sencilla de separar el trigo de la paja, identificando a los candidatos con una auténtica destreza en la codificación. Pero a medida que las herramientas de codificación de IA, en particular el propio Claude de Anthropic, han avanzado rápidamente, la prueba se ha convertido en un objetivo en movimiento.
El desafío, como explicó el jefe de equipo Tristan Hume en una reciente publicación de blog, es que Claude se ha vuelto demasiado bueno. Cada iteración del modelo obliga a rediseñar por completo la evaluación. "Cada nuevo modelo de Claude nos ha obligado a rediseñar la prueba", escribe Hume. El problema no es solo que Claude pueda completar la prueba; es que puede completarla excepcionalmente bien. Según Hume, Claude Opus 4 superó a la mayoría de los solicitantes humanos cuando se le dio la misma restricción de tiempo. Si bien esto inicialmente permitió a Anthropic identificar aún a los candidatos más fuertes, el lanzamiento posterior de Claude Opus 4.5 difuminó aún más las líneas, igualando el rendimiento incluso de aquellos solicitantes de primer nivel.
Esto presenta un problema importante en la evaluación de candidatos. En un entorno para llevar a casa, sin la atenta mirada de un supervisor, no hay forma de garantizar que los solicitantes no estén aprovechando la asistencia de la IA. Y si lo hacen, podrían ascender rápidamente a la cima del grupo de solicitantes, no por sus habilidades inherentes, sino por su capacidad para solicitar eficazmente a una IA. "Bajo las limitaciones de la prueba para llevar a casa, ya no teníamos una forma de distinguir entre el resultado de nuestros mejores candidatos y nuestro modelo más capaz", admite Hume.
La situación en Anthropic refleja una lucha más amplia que se está desarrollando en la educación. Las escuelas y universidades de todo el mundo están lidiando con las implicaciones de las trampas asistidas por IA. Los estudiantes ahora pueden usar la IA para escribir ensayos, resolver ecuaciones complejas e incluso generar código, lo que plantea preguntas sobre la validez de los métodos de evaluación tradicionales. El hecho de que un laboratorio de IA como Anthropic se enfrente a un dilema similar subraya la omnipresencia del problema.
Sin embargo, Anthropic está en una posición única para abordar este desafío. Como empresa líder en investigación de IA, posee la experiencia técnica para desarrollar métodos de evaluación novedosos que puedan diferenciar eficazmente entre el trabajo generado por humanos y el generado por IA. La compañía está explorando varias soluciones, incluida la incorporación de tareas de resolución de problemas creativas y más abiertas que son difíciles de replicar para la IA. También están investigando métodos para detectar código generado por IA, aunque este es un campo en constante evolución.
Las implicaciones de esta situación se extienden más allá del ámbito de las entrevistas técnicas. A medida que la IA continúa avanzando, será cada vez más difícil evaluar con precisión las habilidades y capacidades humanas. Esto podría tener consecuencias de gran alcance para la educación, el empleo e incluso la propia definición de inteligencia humana.
La batalla en curso entre los ingenieros de Anthropic y sus modelos de IA destaca la necesidad de repensar fundamentalmente la evaluación en la era de la IA. Es un desafío que requerirá creatividad, innovación y la voluntad de adaptarse a un panorama tecnológico que cambia rápidamente. El futuro de la evaluación bien puede depender de nuestra capacidad para mantenernos un paso por delante de las máquinas.
Discussion
Join the conversation
Be the first to comment