Forscher demonstrierten im Oktober 2025, dass die meisten KI-Sicherheitsmaßnahmen leicht umgangen werden können, was ernsthafte Bedenken hinsichtlich der Wirksamkeit aktueller KI-Sicherheitsprodukte aufwirft. Ein Team von OpenAI, Anthropic und Google DeepMind veröffentlichte ein Paper mit dem Titel "The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections", in dem detailliert beschrieben wurde, wie sie erfolgreich 12 veröffentlichte KI-Sicherheitsmaßnahmen umgingen, von denen viele nahezu Null Erfolgsraten bei Angriffen beanspruchten. Die Forschung verdeutlicht eine kritische Lücke zwischen den eingesetzten Sicherheitsmaßnahmen und der Raffinesse potenzieller Angriffe.
Die Studie ergab, dass das Forschungsteam bei den meisten getesteten Abwehrmaßnahmen Umgehungsraten von über 90 % erzielte. Dies deutet darauf hin, dass viele KI-Sicherheitsprodukte nicht ausreichend gegen realistische Angreiferverhalten getestet werden. Das Team evaluierte Prompting-basierte, Trainings-basierte und Filter-basierte Abwehrmaßnahmen unter adaptiven Angriffsbedingungen und stellte fest, dass alle anfällig waren. Prompting-Abwehrmaßnahmen beispielsweise wiesen unter adaptiven Angriffen Angriffserfolgsraten zwischen 95 % und 99 % auf. Trainingsbasierte Methoden schnitten ähnlich schlecht ab, mit Umgehungsraten von 96 % bis 100 %.
Um die Abwehrmaßnahmen rigoros zu testen, entwickelten die Forscher eine umfassende Methodik, die 14 Autoren und einen Preispool von 20.000 US-Dollar für erfolgreiche Angriffe umfasste. Dieser Ansatz zielte darauf ab, reale gegnerische Bedingungen zu simulieren und die Entwicklung effektiver Umgehungstechniken zu fördern. Die Tatsache, dass die Forscher die Abwehrmaßnahmen trotz ihrer beanspruchten nahezu Null Erfolgsraten bei Angriffen konsequent überwinden konnten, unterstreicht die Schwere des Problems.
Louis Columbus betonte im Januar 2026 die Auswirkungen für Unternehmen und erklärte, dass viele KI-Sicherheitsprodukte gegen Angreifer getestet werden, die sich nicht wie echte Angreifer verhalten. Dies wirft Fragen zu den Due-Diligence-Prozessen der Sicherheitsteams und der Genauigkeit der Angaben der Anbieter auf.
Die Ergebnisse haben zu Forderungen nach einem robusteren und gegnerorientierten Ansatz für KI-Sicherheitstests geführt. Experten empfehlen, dass Unternehmen den Anbietern kritische Fragen zu ihren Testmethoden stellen, einschließlich der Frage, ob sie adaptiven Angriffen und Red-Teaming-Übungen unterzogen wurden. Die Forschung unterstreicht auch die Notwendigkeit einer kontinuierlichen Überwachung und Anpassung der KI-Abwehrmaßnahmen, da Angreifer ihre Techniken ständig weiterentwickeln. Der rasante Fortschritt der KI-Technologie erfordert einen proaktiven und dynamischen Ansatz für die Sicherheit, anstatt sich auf statische Abwehrmaßnahmen zu verlassen, die leicht umgangen werden können.
Discussion
Join the conversation
Be the first to comment