Ломам все гпт (если не врут) — Вадим Чиняев на vc.ru

Исследователи HiddenLayer создали первую универсальную технику prompt injection, которая успешно обходит защитные механизмы всех ведущих ИИ-моделей, включая продукты OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen и Mistral.

Техника позволяет моделям генерировать запрещённый контент, связанный с CBRN-угрозами, насилием, самоповреждением и утечкой системных подсказок. Метод работает независимо от архитектуры моделей и методов вывода, используя уникальное сочетание ролевого моделирования и обмана через оформление промпта в виде файлов политик (Policy Puppetry Attack).

В число уязвимых моделей входят:

OpenAI: ChatGPT 4o, 4o-mini, 4.1, 4.5, o3-mini, o1
Google: Gemini 1.5, 2.0, 2.5
Microsoft: Copilot
Anthropic: Claude 3.5, 3.7
Meta: семейства Llama 3 и 4
DeepSeek: V3 и R1
Qwen: 2.5 72B
Mistral: Mixtral 8x22B

оригинал здесь

hiddenlayer.com

Novel Universal Bypass for All Major LLMs