В октябре 2025 года исследователи продемонстрировали, что большинство средств защиты ИИ легко обходятся, что вызывает серьезные опасения по поводу эффективности существующих продуктов для обеспечения безопасности ИИ. Команда из OpenAI, Anthropic и Google DeepMind опубликовала статью под названием "Атакующий ходит вторым: более сильные адаптивные атаки обходят защиту от взломов и инъекций промптов в LLM", в которой подробно описано, как они успешно обошли 12 опубликованных средств защиты ИИ, многие из которых заявляли о почти нулевой вероятности успешных атак. Исследование подчеркивает критический разрыв между развертываемыми мерами безопасности и изощренностью потенциальных атак.
Исследование показало, что исследовательская группа достигла показателей обхода, превышающих 90%, для большинства протестированных средств защиты. Это говорит о том, что многие продукты для обеспечения безопасности ИИ недостаточно тестируются на предмет реалистичного поведения злоумышленников. Команда оценила защиту на основе промптов, на основе обучения и на основе фильтрации в условиях адаптивных атак и обнаружила, что все они уязвимы. Например, защита на основе промптов показала вероятность успешных атак от 95% до 99% при адаптивных атаках. Методы, основанные на обучении, показали столь же плохие результаты, с показателями обхода, достигающими 96%-100%.
Для тщательной проверки средств защиты исследователи разработали комплексную методологию, в которой участвовали 14 авторов и призовой фонд в размере 20 000 долларов США за успешные атаки. Этот подход был направлен на имитацию реальных враждебных условий и стимулирование разработки эффективных методов обхода. Тот факт, что исследователи смогли последовательно преодолевать защиту, несмотря на заявленные ими почти нулевые показатели успешных атак, подчеркивает серьезность проблемы.
Луис Колумбус, в своей статье в январе 2026 года, подчеркнул последствия для предприятий, заявив, что многие продукты для обеспечения безопасности ИИ тестируются на злоумышленниках, которые не ведут себя как настоящие злоумышленники. Это поднимает вопросы о процессах должной осмотрительности команд безопасности и точности заявлений поставщиков.
Результаты вызвали призывы к более надежному и агрессивному подходу к тестированию безопасности ИИ. Эксперты рекомендуют организациям задавать поставщикам важные вопросы об их методологиях тестирования, в том числе о том, подвергались ли они адаптивным атакам и учениям red teaming. Исследование также подчеркивает необходимость постоянного мониторинга и адаптации средств защиты ИИ, поскольку злоумышленники постоянно развивают свои методы. Быстрое развитие технологии ИИ требует упреждающего и динамичного подхода к безопасности, а не полагаться на статические средства защиты, которые можно легко обойти.
Discussion
Join the conversation
Be the first to comment