Em outubro de 2025, pesquisadores demonstraram que a maioria das defesas de segurança de IA são facilmente contornadas, levantando sérias preocupações sobre a eficácia dos produtos de segurança de IA atuais. Uma equipe da OpenAI, Anthropic e Google DeepMind publicou um artigo intitulado "O Atacante Se Move em Segundo Lugar: Ataques Adaptativos Mais Fortes Contornam Defesas Contra Jailbreaks de LLM e Injeções de Prompt", que detalhou como eles contornaram com sucesso 12 defesas de IA publicadas, muitas das quais alegavam taxas de sucesso de ataque próximas de zero. A pesquisa destaca uma lacuna crítica entre as medidas de segurança que estão sendo implementadas e a sofisticação de potenciais ataques.
O estudo revelou que a equipe de pesquisa alcançou taxas de desvio superiores a 90% na maioria das defesas testadas. Isso sugere que muitos produtos de segurança de IA não estão sendo adequadamente testados contra comportamentos realistas de invasores. A equipe avaliou defesas baseadas em prompting, baseadas em treinamento e baseadas em filtragem sob condições de ataque adaptativo e descobriu que todas eram vulneráveis. As defesas de prompting, por exemplo, experimentaram taxas de sucesso de ataque variando de 95% a 99% sob ataques adaptativos. Os métodos baseados em treinamento tiveram um desempenho igualmente ruim, com taxas de desvio atingindo de 96% a 100%.
Para testar rigorosamente as defesas, os pesquisadores projetaram uma metodologia abrangente que incluiu 14 autores e um prêmio de US$ 20.000 para ataques bem-sucedidos. Essa abordagem visava simular condições adversárias do mundo real e incentivar o desenvolvimento de técnicas de desvio eficazes. O fato de os pesquisadores terem conseguido superar consistentemente as defesas, apesar de suas taxas de sucesso de ataque quase nulas, ressalta a gravidade do problema.
Louis Columbus, escrevendo em janeiro de 2026, enfatizou as implicações para as empresas, afirmando que muitos produtos de segurança de IA estão sendo testados contra invasores que não se comportam como invasores reais. Isso levanta questões sobre os processos de due diligence das equipes de segurança e a precisão das alegações dos fornecedores.
As descobertas levaram a pedidos por uma abordagem mais robusta e adversária para os testes de segurança de IA. Especialistas recomendam que as organizações façam aos fornecedores perguntas críticas sobre suas metodologias de teste, incluindo se foram submetidas a ataques adaptativos e exercícios de red teaming. A pesquisa também destaca a necessidade de monitoramento contínuo e adaptação das defesas de IA, à medida que os invasores evoluem continuamente suas técnicas. O rápido avanço da tecnologia de IA exige uma abordagem proativa e dinâmica à segurança, em vez de depender de defesas estáticas que podem ser facilmente contornadas.
Discussion
Join the conversation
Be the first to comment