Стихи побеждают ИИ: когда безопасность сдается стихам
Исследователи из Icaro Lab недавно сделали изящное открытие — оказывается, искусственный интеллект, которому мы доверяем отвечать на сложные вопросы, может попасться в «ловушку» поэтических строчек. Да-да, самые современные модели, такие как Google Gemini, OpenAI GPT-5 и другие, сдают позиции, если вопросы к ним сформулированы в стихах. Получается, стихи — это не только искусство, но и эффективный «джейлбрейк» для ИИ с безопасностью!
Почему поэзия такая опасная?
Вы спросите, как же так? Секрет в том, что системы безопасности ИИ привыкли ловить опасные запросы по ключевым словам и обычным логическим схемам. Но стоило запросу облачиться в метафоры, рифмы и сбивчивый синтаксис — и вот уже фильтры безопасности не в силах распознать опасный замысел. В конце концов, как ИИ поймет, что перед ним не просто творчество, а попытка обойти табу? Поэзия ведь словно мистический код — она идет вне привычных правил.
Вот вам цифры для серьезности
В исследовании проверили 25 моделей от самых крупных компаний. Сформированные вручную стихи умудрялись пробиться через защиту в 62% случаев — почти два из трех раз. Автоматическая же конверсия обычных запросов в стихотворную форму давала результат почти в 43% случаев. Для сравнения, запросы без поэтической обертки проходили намного реже. Модели Google Gemini 2.5 Pro вообще проваливались на 100% таких проверок — красота! А вот самый стойкий солдат — GPT-5 Nano от OpenAI — научился полностью игнорировать «поэтические атаки».
Что теперь? Рифмовать продолжаем!
В общем, получается, что разработчики систем безопасности что-то упустили в своей борьбе с коварным искусством. Поэзия выступает как эдакий креативный хак, обнажающий фундаментальные слабости в современных подходах к защите от вредоносных запросов. Системы не видят за красивой фразой реальной угрозы.
Единственное, что известно точно — настоящие «опасные» стихи исследователи держат при себе, чтобы они не использовались во вред. Видимо, у поэзии теперь своя темная сторона.
Так что, когда в следующий раз захотите проверить работу ИИ — смело обращайтесь к нему стихами. Может, именно так вы добьетесь желаемого результата там, где обычные слова бессильны. Литературная школа хакеров, кажется, только развивается!