Pesquisadores demonstraram a vulnerabilidade das defesas de inteligência artificial, violando com sucesso todos os sistemas que testaram, de acordo com um estudo publicado em outubro de 2025. O artigo, intitulado "The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections" (O Atacante Se Move em Segundo Lugar: Ataques Adaptativos Mais Fortes Ignoram Defesas Contra Jailbreaks de LLM e Injeções de Prompt), revelou que 12 defesas de IA, muitas das quais alegavam taxas de sucesso de ataque próximas de zero, foram ignoradas com taxas de sucesso superiores a 90% na maioria dos casos. A pesquisa foi conduzida por uma equipe da OpenAI, Anthropic e Google DeepMind.
As descobertas levantam sérias preocupações sobre a eficácia dos produtos de segurança de IA atualmente implantados pelas empresas. Louis Columbus relatou em 23 de janeiro de 2026 que muitos desses produtos são testados contra atacantes que não representam com precisão as ameaças do mundo real.
A equipe de pesquisa avaliou defesas baseadas em prompting, baseadas em treinamento e baseadas em filtragem sob condições de ataque adaptativo. As defesas de prompting, projetadas para impedir que prompts maliciosos manipulem modelos de IA, experimentaram taxas de sucesso de ataque entre 95% e 99%. Os métodos baseados em treinamento, que visam fortalecer os modelos de IA contra ataques por meio de dados de treinamento específicos, tiveram um desempenho igualmente ruim, com taxas de bypass variando de 96% a 100%.
Os pesquisadores empregaram uma metodologia rigorosa para validar as alegações feitas pelos sistemas de defesa de IA. Isso incluiu uma equipe de 14 autores e um prêmio de US$ 20.000 incentivando ataques bem-sucedidos. O estudo testou defesas em quatro categorias, todas as quais inicialmente alegavam taxas de sucesso de ataque próximas de zero.
As implicações desta pesquisa vão além das preocupações imediatas de segurança. A adoção generalizada de IA em vários setores, de finanças a saúde, exige medidas de segurança robustas. A vulnerabilidade demonstrada das defesas de IA atuais destaca a necessidade de uma abordagem mais proativa e adaptativa à segurança de IA.
Diante dessas descobertas, as empresas que adquirem soluções de segurança de IA devem fazer aos fornecedores perguntas críticas sobre suas metodologias de teste e resiliência a ataques adaptativos. Essas perguntas devem incluir:
1. Que tipos de ataques adaptativos foram usados para testar o sistema?
2. Qual é a taxa de sucesso de ataque documentada em condições de ataque adaptativo?
3. Com que frequência o sistema é reavaliado em relação a novos vetores de ataque?
4. Que métodos são usados para simular o comportamento de um invasor do mundo real?
5. Como o sistema lida com injeções de prompt e tentativas de jailbreaking?
6. Qual é o processo para atualizar o sistema em resposta a vulnerabilidades recém-descobertas?
7. O fornecedor pode fornecer verificação independente das alegações de segurança do sistema?
A pesquisa ressalta a importância do monitoramento contínuo e da adaptação em face da evolução das ameaças de IA. À medida que a tecnologia de IA avança, o mesmo deve ocorrer com as estratégias de defesa contra agentes maliciosos. As descobertas sugerem a necessidade de maior colaboração entre desenvolvedores de IA, pesquisadores de segurança e empresas para desenvolver soluções de segurança de IA mais robustas e resilientes.
Discussion
Join the conversation
Be the first to comment