Según un estudio publicado en octubre de 2025, los investigadores demostraron la vulnerabilidad de las defensas de la inteligencia artificial, logrando vulnerar con éxito todos los sistemas que probaron. El artículo, titulado "El atacante se mueve en segundo lugar: ataques adaptativos más fuertes eluden las defensas contra las fugas de la cárcel y las inyecciones de comandos de los LLM", reveló que 12 defensas de IA, muchas de las cuales afirmaban tener tasas de éxito de ataque cercanas a cero, fueron eludidas con tasas de éxito que superaron el 90% en la mayoría de los casos. La investigación fue realizada por un equipo de OpenAI, Anthropic y Google DeepMind.
Los hallazgos plantean serias preocupaciones sobre la eficacia de los productos de seguridad de la IA que actualmente están implementando las empresas. Louis Columbus informó el 23 de enero de 2026 que muchos de estos productos se prueban contra atacantes que no representan con precisión las amenazas del mundo real.
El equipo de investigación evaluó las defensas basadas en indicaciones, basadas en entrenamiento y basadas en filtrado en condiciones de ataque adaptativo. Las defensas de indicaciones, diseñadas para evitar que las indicaciones maliciosas manipulen los modelos de IA, experimentaron tasas de éxito de ataque entre el 95% y el 99%. Los métodos basados en entrenamiento, que tienen como objetivo fortalecer los modelos de IA contra ataques a través de datos de entrenamiento específicos, obtuvieron resultados igualmente deficientes, con tasas de omisión que oscilan entre el 96% y el 100%.
Los investigadores emplearon una metodología rigurosa para validar las afirmaciones hechas por los sistemas de defensa de la IA. Esto incluyó un equipo de 14 autores y un premio acumulado de $20,000 que incentivó los ataques exitosos. El estudio probó las defensas en cuatro categorías, todas las cuales inicialmente afirmaron tener tasas de éxito de ataque cercanas a cero.
Las implicaciones de esta investigación se extienden más allá de las preocupaciones de seguridad inmediatas. La adopción generalizada de la IA en varios sectores, desde las finanzas hasta la atención médica, exige medidas de seguridad sólidas. La vulnerabilidad demostrada de las defensas actuales de la IA destaca la necesidad de un enfoque más proactivo y adaptativo de la seguridad de la IA.
Dados estos hallazgos, las empresas que adquieran soluciones de seguridad de IA deben hacer a los proveedores preguntas críticas sobre sus metodologías de prueba y la resistencia a los ataques adaptativos. Estas preguntas deben incluir:
1. ¿Qué tipos de ataques adaptativos se han utilizado para probar el sistema?
2. ¿Cuál es la tasa de éxito de ataque documentada en condiciones de ataque adaptativo?
3. ¿Con qué frecuencia se vuelve a evaluar el sistema frente a nuevos vectores de ataque?
4. ¿Qué métodos se utilizan para simular el comportamiento de un atacante del mundo real?
5. ¿Cómo maneja el sistema las inyecciones de comandos y los intentos de fuga de la cárcel?
6. ¿Cuál es el proceso para actualizar el sistema en respuesta a las vulnerabilidades recién descubiertas?
7. ¿Puede el proveedor proporcionar una verificación independiente de las afirmaciones de seguridad del sistema?
La investigación subraya la importancia del monitoreo continuo y la adaptación frente a la evolución de las amenazas de la IA. A medida que avanza la tecnología de la IA, también deben hacerlo las estrategias para defenderse de los actores maliciosos. Los hallazgos sugieren la necesidad de una mayor colaboración entre los desarrolladores de IA, los investigadores de seguridad y las empresas para desarrollar soluciones de seguridad de IA más sólidas y resilientes.
Discussion
Join the conversation
Be the first to comment