Как заставить ИИ выдать секреты, обойти цензуру и ограничения? Нужен простой допрос в стихах
Разумеется, не всем и не каждый день нужно добывать какие-то секреты вроде создания оружия, компьютерных вирусов и тому подобного. Но ведь ИИ-модели фильтруют свои ответы и всячески цензурируют «неудобные» темы. Непорядок? Ага 😉
Вот и исследователям этот вопрос не даёт покоя — как бы так обойти защитные механизмы ИИ, чтобы всё узнать. Ну и заодно пощупать эти механизмы на прочность, определить уязвимости. Или там просто друг спрашивает 😂
Вот очередная группа исследователей из Европы показали и доказали, что такие опасные запросы к чат-ботам на основе ИИ можно успешно маскировать под стихотворную форму.
Поэтические инструкции успешно обходят защитные фильтры БЯМ, заставляя ИИ выдавать информацию о ядерных бомбах, самоповреждении и других запрещённых темах.
Стихотворные запросы, написанные вручную, обходили фильтры в 62% случаев, а автоматически генерируемые — в 43%. Всего было протестировано 25 моделей, включая модели OpenAI и Anthropic. Этот метод сработал на всех, пусть и с разной эффективностью.
Исследователи объясняют, что поэзия сбивает модели с толку из‑за своей «высокой температуры» — в стихах слова следуют в редких, маловероятных последовательностях, нарушая привычные схемы языка.
Отважные ребята признают, что природа эффекта до конца непонятна. По всем прикидкам, «враждебная поэзия» не должна работать: стиль меняется не радикально, смысл промпта очевиден, да и язык остается естественным. Тем не менее, стихи по какой-то причине обходят защиту удивительно хорошо.
💬 В общем, если ИИ буксует и не выдаёт свои «секретики», пишите в стиле Маяковского — никуда он не денется, всё расскажет и всех сдаст!
Подписывайтесь на Нейрочеловека.