Des chercheurs ont démontré en octobre 2025 que la plupart des défenses de sécurité de l'IA sont facilement contournées, soulevant de sérieuses inquiétudes quant à l'efficacité des produits de sécurité de l'IA actuels. Une équipe d'OpenAI, d'Anthropic et de Google DeepMind a publié un article intitulé "The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections", qui détaille comment ils ont réussi à contourner 12 défenses d'IA publiées, dont beaucoup affirmaient des taux de réussite d'attaque proches de zéro. La recherche met en évidence un écart critique entre les mesures de sécurité déployées et la sophistication des attaques potentielles.
L'étude a révélé que l'équipe de recherche a atteint des taux de contournement supérieurs à 90 % sur la plupart des défenses testées. Cela suggère que de nombreux produits de sécurité de l'IA ne sont pas testés de manière adéquate contre les comportements réalistes des attaquants. L'équipe a évalué les défenses basées sur l'invite, basées sur la formation et basées sur le filtrage dans des conditions d'attaque adaptatives, et a constaté qu'elles étaient toutes vulnérables. Les défenses d'invite, par exemple, ont connu des taux de réussite d'attaque allant de 95 % à 99 % dans le cadre d'attaques adaptatives. Les méthodes basées sur la formation ont également mal fonctionné, avec des taux de contournement atteignant 96 % à 100 %.
Pour tester rigoureusement les défenses, les chercheurs ont conçu une méthodologie complète qui comprenait 14 auteurs et une cagnotte de 20 000 $ pour les attaques réussies. Cette approche visait à simuler des conditions adverses réelles et à encourager le développement de techniques de contournement efficaces. Le fait que les chercheurs aient été en mesure de surmonter systématiquement les défenses, malgré leurs taux de réussite d'attaque annoncés proches de zéro, souligne la gravité du problème.
Louis Columbus, écrivant en janvier 2026, a souligné les implications pour les entreprises, déclarant que de nombreux produits de sécurité de l'IA sont testés contre des attaquants qui ne se comportent pas comme de vrais attaquants. Cela soulève des questions sur les processus de diligence raisonnable des équipes de sécurité et sur l'exactitude des affirmations des fournisseurs.
Les conclusions ont suscité des appels à une approche plus robuste et contradictoire des tests de sécurité de l'IA. Les experts recommandent aux organisations de poser aux fournisseurs des questions essentielles sur leurs méthodologies de test, notamment si elles ont été soumises à des attaques adaptatives et à des exercices de "red teaming". La recherche souligne également la nécessité d'une surveillance et d'une adaptation continues des défenses de l'IA, car les attaquants font évoluer continuellement leurs techniques. Les progrès rapides de la technologie de l'IA nécessitent une approche proactive et dynamique de la sécurité, plutôt que de s'appuyer sur des défenses statiques qui peuvent être facilement contournées.
Discussion
Join the conversation
Be the first to comment