En octubre de 2025, investigadores demostraron que la mayoría de las defensas de seguridad de la IA se pueden eludir fácilmente, lo que genera serias preocupaciones sobre la eficacia de los productos de seguridad de la IA actuales. Un equipo de OpenAI, Anthropic y Google DeepMind publicó un artículo titulado "El atacante se mueve en segundo lugar: ataques adaptativos más fuertes eluden las defensas contra los jailbreaks de LLM y las inyecciones de prompts", que detallaba cómo lograron eludir 12 defensas de IA publicadas, muchas de las cuales afirmaban tasas de éxito de ataque cercanas a cero. La investigación destaca una brecha crítica entre las medidas de seguridad que se están implementando y la sofisticación de los posibles ataques.
El estudio reveló que el equipo de investigación logró tasas de elusión superiores al 90% en la mayoría de las defensas probadas. Esto sugiere que muchos productos de seguridad de la IA no se están probando adecuadamente contra comportamientos de atacantes realistas. El equipo evaluó las defensas basadas en prompts, en entrenamiento y en filtrado en condiciones de ataque adaptativo, y descubrió que todas eran vulnerables. Las defensas basadas en prompts, por ejemplo, experimentaron tasas de éxito de ataque que oscilaron entre el 95% y el 99% bajo ataques adaptativos. A los métodos basados en entrenamiento les fue igualmente mal, con tasas de elusión que alcanzaron del 96% al 100%.
Para probar rigurosamente las defensas, los investigadores diseñaron una metodología integral que incluyó a 14 autores y un premio acumulado de $20,000 para los ataques exitosos. Este enfoque tenía como objetivo simular condiciones adversarias del mundo real e incentivar el desarrollo de técnicas de elusión eficaces. El hecho de que los investigadores pudieran superar constantemente las defensas, a pesar de sus afirmadas tasas de éxito de ataque cercanas a cero, subraya la gravedad del problema.
Louis Columbus, escribiendo en enero de 2026, enfatizó las implicaciones para las empresas, afirmando que muchos productos de seguridad de la IA se están probando contra atacantes que no se comportan como atacantes reales. Esto plantea interrogantes sobre los procesos de diligencia debida de los equipos de seguridad y la exactitud de las afirmaciones de los proveedores.
Los hallazgos han provocado llamamientos a un enfoque más robusto y adverso para las pruebas de seguridad de la IA. Los expertos recomiendan que las organizaciones hagan a los proveedores preguntas críticas sobre sus metodologías de prueba, incluyendo si han sido sometidas a ataques adaptativos y ejercicios de red teaming. La investigación también destaca la necesidad de una supervisión y adaptación continuas de las defensas de la IA, ya que los atacantes evolucionan continuamente sus técnicas. El rápido avance de la tecnología de la IA exige un enfoque de seguridad proactivo y dinámico, en lugar de depender de defensas estáticas que puedan eludirse fácilmente.
Discussion
Join the conversation
Be the first to comment