Selon une étude publiée en octobre 2025, des chercheurs ont démontré la vulnérabilité des défenses de l'intelligence artificielle, réussissant à percer tous les systèmes qu'ils ont testés. L'article, intitulé "The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections" (L'attaquant bouge en second : des attaques adaptatives plus fortes contournent les défenses contre les jailbreaks et les injections d'invites des LLM), a révélé que 12 défenses d'IA, dont beaucoup affirmaient des taux de réussite d'attaque quasi nuls, ont été contournées avec des taux de réussite dépassant 90 % dans la plupart des cas. La recherche a été menée par une équipe d'OpenAI, d'Anthropic et de Google DeepMind.
Les conclusions soulèvent de sérieuses inquiétudes quant à l'efficacité des produits de sécurité de l'IA actuellement déployés par les entreprises. Louis Columbus a rapporté le 23 janvier 2026 que bon nombre de ces produits sont testés contre des attaquants qui ne représentent pas fidèlement les menaces du monde réel.
L'équipe de recherche a évalué les défenses basées sur l'invite, basées sur l'apprentissage et basées sur le filtrage dans des conditions d'attaque adaptative. Les défenses d'invite, conçues pour empêcher les invites malveillantes de manipuler les modèles d'IA, ont connu des taux de réussite d'attaque compris entre 95 % et 99 %. Les méthodes basées sur l'apprentissage, qui visent à renforcer les modèles d'IA contre les attaques grâce à des données d'apprentissage spécifiques, ont obtenu des résultats tout aussi médiocres, avec des taux de contournement allant de 96 % à 100 %.
Les chercheurs ont employé une méthodologie rigoureuse pour valider les affirmations faites par les systèmes de défense de l'IA. Cela comprenait une équipe de 14 auteurs et une cagnotte de 20 000 $ incitant à des attaques réussies. L'étude a testé les défenses dans quatre catégories, qui affirmaient toutes initialement des taux de réussite d'attaque quasi nuls.
Les implications de cette recherche vont au-delà des préoccupations immédiates en matière de sécurité. L'adoption généralisée de l'IA dans divers secteurs, de la finance à la santé, nécessite des mesures de sécurité robustes. La vulnérabilité démontrée des défenses actuelles de l'IA souligne la nécessité d'une approche plus proactive et adaptative de la sécurité de l'IA.
Compte tenu de ces conclusions, les entreprises qui acquièrent des solutions de sécurité de l'IA devraient poser aux fournisseurs des questions essentielles sur leurs méthodologies de test et leur résilience aux attaques adaptatives. Ces questions devraient inclure :
1. Quels types d'attaques adaptatives ont été utilisés pour tester le système ?
2. Quel est le taux de réussite d'attaque documenté dans des conditions d'attaque adaptative ?
3. À quelle fréquence le système est-il réévalué par rapport aux nouveaux vecteurs d'attaque ?
4. Quelles méthodes sont utilisées pour simuler le comportement d'un attaquant du monde réel ?
5. Comment le système gère-t-il les injections d'invites et les tentatives de jailbreaking ?
6. Quel est le processus de mise à jour du système en réponse aux vulnérabilités nouvellement découvertes ?
7. Le fournisseur peut-il fournir une vérification indépendante des affirmations de sécurité du système ?
La recherche souligne l'importance d'une surveillance et d'une adaptation continues face à l'évolution des menaces liées à l'IA. À mesure que la technologie de l'IA progresse, il en va de même pour les stratégies de défense contre les acteurs malveillants. Les conclusions suggèrent la nécessité d'une plus grande collaboration entre les développeurs d'IA, les chercheurs en sécurité et les entreprises afin de développer des solutions de sécurité de l'IA plus robustes et résilientes.
Discussion
Join the conversation
Be the first to comment