Согласно исследованию, опубликованному в октябре 2025 года, исследователи продемонстрировали уязвимость систем защиты на основе искусственного интеллекта, успешно взломав все протестированные ими системы. В статье под названием "Атакующий ходит вторым: более сильные адаптивные атаки обходят защиту от джейлбрейков и инъекций промптов в LLM" было показано, что 12 систем защиты ИИ, многие из которых заявляли о практически нулевом уровне успешности атак, были обойдены с уровнем успешности, превышающим 90% в большинстве случаев. Исследование было проведено командой из OpenAI, Anthropic и Google DeepMind.
Результаты вызывают серьезные опасения по поводу эффективности продуктов безопасности ИИ, которые в настоящее время развертываются предприятиями. Луис Колумбус сообщил 23 января 2026 года, что многие из этих продуктов тестируются против злоумышленников, которые неточно представляют реальные угрозы.
Исследовательская группа оценила защиту на основе промптов, на основе обучения и на основе фильтрации в условиях адаптивных атак. Защита на основе промптов, предназначенная для предотвращения манипулирования моделями ИИ с помощью вредоносных промптов, показала уровень успешности атак от 95% до 99%. Методы, основанные на обучении, которые направлены на укрепление моделей ИИ против атак с помощью определенных данных обучения, показали столь же плохие результаты, с уровнем обхода от 96% до 100%.
Исследователи использовали строгую методологию для проверки заявлений, сделанных системами защиты ИИ. Это включало команду из 14 авторов и призовой фонд в размере 20 000 долларов США, стимулирующий успешные атаки. В ходе исследования были протестированы системы защиты по четырем категориям, каждая из которых изначально заявляла о практически нулевом уровне успешности атак.
Последствия этого исследования выходят за рамки непосредственных проблем безопасности. Широкое внедрение ИИ в различных секторах, от финансов до здравоохранения, требует надежных мер безопасности. Продемонстрированная уязвимость существующих систем защиты ИИ подчеркивает необходимость более активного и адаптивного подхода к безопасности ИИ.
Учитывая эти результаты, предприятиям, приобретающим решения для обеспечения безопасности ИИ, следует задать поставщикам важные вопросы об их методологиях тестирования и устойчивости к адаптивным атакам. Эти вопросы должны включать:
1. Какие типы адаптивных атак использовались для тестирования системы?
2. Каков задокументированный уровень успешности атак в условиях адаптивных атак?
3. Как часто система переоценивается на предмет новых векторов атак?
4. Какие методы используются для имитации поведения злоумышленников в реальном мире?
5. Как система обрабатывает инъекции промптов и попытки джейлбрейка?
6. Каков процесс обновления системы в ответ на вновь обнаруженные уязвимости?
7. Может ли поставщик предоставить независимую проверку заявлений системы о безопасности?
Исследование подчеркивает важность непрерывного мониторинга и адаптации перед лицом развивающихся угроз ИИ. По мере развития технологии ИИ должны развиваться и стратегии защиты от злоумышленников. Результаты указывают на необходимость более тесного сотрудничества между разработчиками ИИ, исследователями в области безопасности и предприятиями для разработки более надежных и устойчивых решений для обеспечения безопасности ИИ.
Discussion
Join the conversation
Be the first to comment