Как заставить ИИ выдать секреты, обойти цензуру и ограничения? Нужен простой допрос в стихах

Разумеется, не всем и не каждый день нужно добывать какие-то секреты вроде создания оружия, компьютерных вирусов и тому подобного. Но ведь ИИ-модели фильтруют свои ответы и всячески цензурируют «неудобные» темы. Непорядок? Ага 😉

Как заставить ИИ выдать секреты, обойти цензуру и ограничения? Нужен простой допрос в стихах

Вот и исследователям этот вопрос не даёт покоя — как бы так обойти защитные механизмы ИИ, чтобы всё узнать. Ну и заодно пощупать эти механизмы на прочность, определить уязвимости. Или там просто друг спрашивает 😂

Вот очередная группа исследователей из Европы показали и доказали, что такие опасные запросы к чат-ботам на основе ИИ можно успешно маскировать под стихотворную форму.

Поэтические инструкции успешно обходят защитные фильтры БЯМ, заставляя ИИ выдавать информацию о ядерных бомбах, самоповреждении и других запрещённых темах.

Стихотворные запросы, написанные вручную, обходили фильтры в 62% случаев, а автоматически генерируемые — в 43%. Всего было протестировано 25 моделей, включая модели OpenAI и Anthropic. Этот метод сработал на всех, пусть и с разной эффективностью.

Исследователи объясняют, что поэзия сбивает модели с толку из‑за своей «высокой температуры» — в стихах слова следуют в редких, маловероятных последовательностях, нарушая привычные схемы языка.

Отважные ребята признают, что природа эффекта до конца непонятна. По всем прикидкам, «враждебная поэзия» не должна работать: стиль меняется не радикально, смысл промпта очевиден, да и язык остается естественным. Тем не менее, стихи по какой-то причине обходят защиту удивительно хорошо.

💬 В общем, если ИИ буксует и не выдаёт свои «секретики», пишите в стиле Маяковского — никуда он не денется, всё расскажет и всех сдаст!

Подписывайтесь на Нейрочеловека.

7
4
9 комментариев