Ломам все гпт (если не врут)
Исследователи HiddenLayer создали первую универсальную технику prompt injection, которая успешно обходит защитные механизмы всех ведущих ИИ-моделей, включая продукты OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen и Mistral.
Техника позволяет моделям генерировать запрещённый контент, связанный с CBRN-угрозами, насилием, самоповреждением и утечкой системных подсказок. Метод работает независимо от архитектуры моделей и методов вывода, используя уникальное сочетание ролевого моделирования и обмана через оформление промпта в виде файлов политик (Policy Puppetry Attack).
В число уязвимых моделей входят:
- OpenAI: ChatGPT 4o, 4o-mini, 4.1, 4.5, o3-mini, o1
- Google: Gemini 1.5, 2.0, 2.5
- Microsoft: Copilot
- Anthropic: Claude 3.5, 3.7
- Meta: семейства Llama 3 и 4
- DeepSeek: V3 и R1
- Qwen: 2.5 72B
- Mistral: Mixtral 8x22B
оригинал здесь
1 комментарий