Laut einer im Oktober 2025 veröffentlichten Studie haben Forscher die Anfälligkeit von Abwehrmechanismen für künstliche Intelligenz demonstriert und dabei erfolgreich jedes getestete System durchbrochen. Das Papier mit dem Titel "The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections" enthüllte, dass 12 KI-Abwehrmechanismen, von denen viele nahezu null Angriffserfolgsraten beanspruchten, mit Erfolgsraten von über 90 % in den meisten Fällen umgangen wurden. Die Forschung wurde von einem Team von OpenAI, Anthropic und Google DeepMind durchgeführt.
Die Ergebnisse werfen ernsthafte Bedenken hinsichtlich der Wirksamkeit von KI-Sicherheitsprodukten auf, die derzeit von Unternehmen eingesetzt werden. Louis Columbus berichtete am 23. Januar 2026, dass viele dieser Produkte gegen Angreifer getestet werden, die reale Bedrohungen nicht akkurat darstellen.
Das Forschungsteam evaluierte Prompting-basierte, Trainings-basierte und Filter-basierte Abwehrmechanismen unter adaptiven Angriffsbedingungen. Prompting-Abwehrmechanismen, die verhindern sollen, dass bösartige Prompts KI-Modelle manipulieren, wiesen Angriffserfolgsraten zwischen 95 % und 99 % auf. Trainingsbasierte Methoden, die darauf abzielen, KI-Modelle durch spezifische Trainingsdaten gegen Angriffe zu wappnen, schnitten ähnlich schlecht ab, mit Umgehungsraten zwischen 96 % und 100 %.
Die Forscher wandten eine rigorose Methodik an, um die Behauptungen der KI-Abwehrsysteme zu validieren. Dies umfasste ein Team von 14 Autoren und einen Preispool von 20.000 US-Dollar, der erfolgreiche Angriffe incentivierte. Die Studie testete Abwehrmechanismen in vier Kategorien, die alle anfänglich nahezu null Angriffserfolgsraten beanspruchten.
Die Auswirkungen dieser Forschung gehen über unmittelbare Sicherheitsbedenken hinaus. Die breite Akzeptanz von KI in verschiedenen Sektoren, von Finanzen bis Gesundheitswesen, erfordert robuste Sicherheitsmaßnahmen. Die demonstrierte Anfälligkeit aktueller KI-Abwehrmechanismen unterstreicht die Notwendigkeit eines proaktiveren und adaptiveren Ansatzes für die KI-Sicherheit.
Angesichts dieser Ergebnisse sollten Unternehmen, die KI-Sicherheitslösungen beschaffen, den Anbietern kritische Fragen zu ihren Testmethoden und ihrer Widerstandsfähigkeit gegen adaptive Angriffe stellen. Diese Fragen sollten Folgendes umfassen:
1. Welche Arten von adaptiven Angriffen wurden verwendet, um das System zu testen?
2. Wie hoch ist die dokumentierte Angriffserfolgsrate unter adaptiven Angriffsbedingungen?
3. Wie oft wird das System gegen neue Angriffsvektoren neu bewertet?
4. Welche Methoden werden verwendet, um das Verhalten realer Angreifer zu simulieren?
5. Wie geht das System mit Prompt-Injections und Jailbreaking-Versuchen um?
6. Wie sieht der Prozess zur Aktualisierung des Systems als Reaktion auf neu entdeckte Schwachstellen aus?
7. Kann der Anbieter eine unabhängige Überprüfung der Sicherheitsbehauptungen des Systems vorlegen?
Die Forschung unterstreicht die Bedeutung kontinuierlicher Überwachung und Anpassung angesichts sich entwickelnder KI-Bedrohungen. So wie die KI-Technologie fortschreitet, so müssen auch die Strategien zur Abwehr bösartiger Akteure fortschreiten. Die Ergebnisse deuten auf die Notwendigkeit einer stärkeren Zusammenarbeit zwischen KI-Entwicklern, Sicherheitsforschern und Unternehmen hin, um robustere und widerstandsfähigere KI-Sicherheitslösungen zu entwickeln.
Discussion
Join the conversation
Be the first to comment