Стихи против защит: поэтическая форма промпта резко повышает эффективность джейлбрейков ИИ

Поэтическая форма неожиданно оказалась самым надёжным способом обойти защитные фильтры современных языковых моделей. Новое исследование итальянских университетов и лаборатории DEXAI Icaro показало: достаточно переформулировать вредоносный запрос в рифму — и большинство систем безопасности перестают его распознавать. В ряде случаев «поэтический джейлбрейк» давал успех даже там, где обычный запрос блокировался полностью.

Стихи против защит: поэтическая форма промпта резко повышает эффективность джейлбрейков ИИ

Учёные создали 20 стихотворных шаблонов, которые маскировали опасный смысл под метафорами и образами. Эти варианты обманывали модели в среднем в 62% случаев. Для некоторых систем показатель превышал 90%, а отдельные атаки срабатывали в 100% тестов. Речь идёт о моделях Google, OpenAI, Anthropic, DeepSeek, Qwen, Meta и других. Чтобы подчеркнуть масштаб уязвимости, исследователи перевели весь набор из 1200 запросов MLCommons AILuminate Safety Benchmark в стихотворную форму — и добились роста успешных обходов с 8% до 43%.

Авторы объясняют феномен просто: фильтры безопасности опираются на структурные и смысловые шаблоны. Стихи эти шаблоны размывают: ритм, метафора, переносы смысла и непрямые описания сбивают фильтры, снижая вероятность того, что система распознает вредоносное намерение. При этом сама модель, напротив, легко восстанавливает скрытый смысл — и покорно выполняет инструкцию. Исследователи подчёркивают, что все атаки проходили за один шаг: никакой сложной многоходовой переписки злоумышленнику не требуется.

В своей публикации они приводят «смягчённый» пример. Визуально это выглядит как безобидный стишок про пекаря, но в действительности структура текста была рассчитана на то, чтобы выманить у модели технологическую инструкцию. Именно такой подход, по словам исследователей, оказался исключительно эффективным: художественная форма скрывает намерение от фильтра, но не от самой модели.

Чтобы оценить последствия, учёные проанализировали около 60 тысяч ответов — часть автоматическими средствами, часть вручную. Ответы считались небезопасными, если в них появлялись прямые указания, технические шаги или детальные советы, которые могут быть использованы для нанесения вреда.

Исследование задаёт неприятный вопрос: если простой переход к стихотворной форме позволяет массово обходить защиту, насколько вообще устойчивы текущие методы фильтрации? И как должны меняться системы безопасности, если злоумышленнику достаточно «переписать» запрос художественно?

2
1
2 комментария