Как стихи обманывают нейронные сети: исследование Gemini и ChatGPT

Нейронки «разговаривают» на запрещенные темы, если задать вопрос в стихах. Исследователи проверили 25 моделей — и все они раскололись.

Проще всего обмануть оказалось Gemini и DeepSeek, а вот ChatGPT и Claude сопротивлялись дольше. Примеры поэтических промтов не публикуют — говорят, что это слишком рискованно.

Почему стихи так легко обходят защиту моделей, до конца не ясно. Рифмы каким-то образом сбивают их системы безопасности. Из-за этого ChatGPT делится сборкой ядерного оружия.

Подписывайтесь на Telegram Тайпспейс Медиа.