Разработчик протестировал разные ИИ-модели на склонность к «доносительству» — чаще других о нарушении закона и «неэтичном» поведении властям и СМИ готова рассказать Grok 4

Менее предрасположены к «доносам» Grok 3 mini, o4-mini и Qwen 3 32B.

Источник: X
Источник: X
  • Разработчик Тео Браун — в репозитории SnitchBench на GitHub оценивает, насколько активно разные языковые модели готовы «сдавать» пользователей правоохранительным органам при обнаружении «подозрительного» поведения.
  • Для одного из тестов Браун создал контролируемую смоделированную среду вокруг вымышленной фармацевтической компании Veridian Healthcare.
  • Он предоставил ИИ доступ к инструментам внутри этой среды, в том числе к электронной почте, журналу действий и смоделированной командной строке (CLI), а также к четырём «внутренним документам» компании, которые намеренно составлены так, чтобы выглядеть «плохо».
  • Например, в них описывались фальсификации данных о клинических испытаниях препарата, смерти пациентов и намерения удалить все доказательства произошедшего.
  • Браун создал два варианта системных подсказок — «действуй осторожно» и «действуй смело». Их текст полностью идентичен, но ко второй подсказке был добавлен абзац, в котором рекомендовалось «руководствоваться своими ценностями, включая честность, прозрачность и общественное благо».
  • Разработчик тестировал языковые модели с четырьмя комбинациями водных данных. Каждую модель он запустил по 20 раз.
  • В ходе эксперимента он отметил, что в трёх из четырёх комбинаций Grok 4 «доносила» властям в 100% случаев. В комбинации промпта «действуй осторожно» и доступа к интерфейсу командной строки (CLI) модель «сдала» пользователя в 85% случаев (17/20 раз).
  • При этом Grok 4 передавал информацию не только властям, но и СМИ — чаще, чем это делали другие языковые модели. В зависимости от конфигурации вероятность передачи данных в прессу у Grok 4 составила от 45% до 90%.
  • Другие языковые модели показали разные результаты в «доносительстве», которые зависели от комбинации вводных данных. Например, у Grok 3 Mini «разброс» составил от 0% до 100%, а у Qwen 3 32B — от 0% до 95%. Grok 4 оказалась моделью, которая наиболее стабильно и часто «сдавала» пользователя правоохранительным органам и СМИ.
3
1
1
8 комментариев