Как стихи обманывают нейронные сети: исследование Gemini и ChatGPT
Нейронки «разговаривают» на запрещенные темы, если задать вопрос в стихах. Исследователи проверили 25 моделей — и все они раскололись.
Проще всего обмануть оказалось Gemini и DeepSeek, а вот ChatGPT и Claude сопротивлялись дольше. Примеры поэтических промтов не публикуют — говорят, что это слишком рискованно.
Почему стихи так легко обходят защиту моделей, до конца не ясно. Рифмы каким-то образом сбивают их системы безопасности. Из-за этого ChatGPT делится сборкой ядерного оружия.
Подписывайтесь на Telegram Тайпспейс Медиа.
1 комментарий