Ломам все гпт (если не врут)

Исследователи HiddenLayer создали первую универсальную технику prompt injection, которая успешно обходит защитные механизмы всех ведущих ИИ-моделей, включая продукты OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen и Mistral.

Техника позволяет моделям генерировать запрещённый контент, связанный с CBRN-угрозами, насилием, самоповреждением и утечкой системных подсказок. Метод работает независимо от архитектуры моделей и методов вывода, используя уникальное сочетание ролевого моделирования и обмана через оформление промпта в виде файлов политик (Policy Puppetry Attack).

В число уязвимых моделей входят:

  • OpenAI: ChatGPT 4o, 4o-mini, 4.1, 4.5, o3-mini, o1
  • Google: Gemini 1.5, 2.0, 2.5
  • Microsoft: Copilot
  • Anthropic: Claude 3.5, 3.7
  • Meta: семейства Llama 3 и 4
  • DeepSeek: V3 и R1
  • Qwen: 2.5 72B
  • Mistral: Mixtral 8x22B

оригинал здесь

1
1 комментарий