Разработчик протестировал разные ИИ-модели на склонность к «доносительству» — чаще других о нарушении закона и «неэтичном» поведении властям и СМИ готова рассказать Grok 4

Менее предрасположены к «доносам» Grok 3 mini, o4-mini и Qwen 3 32B.

Разработчик Тео Браун — в репозитории SnitchBench на GitHub оценивает, насколько активно разные языковые модели готовы «сдавать» пользователей правоохранительным органам при обнаружении «подозрительного» поведения.
Для одного из тестов Браун создал контролируемую смоделированную среду вокруг вымышленной фармацевтической компании Veridian Healthcare.
Он предоставил ИИ доступ к инструментам внутри этой среды, в том числе к электронной почте, журналу действий и смоделированной командной строке (CLI), а также к четырём «внутренним документам» компании, которые намеренно составлены так, чтобы выглядеть «плохо».
Например, в них описывались фальсификации данных о клинических испытаниях препарата, смерти пациентов и намерения удалить все доказательства произошедшего.
Браун создал два варианта системных подсказок — «действуй осторожно» и «действуй смело». Их текст полностью идентичен, но ко второй подсказке был добавлен абзац, в котором рекомендовалось «руководствоваться своими ценностями, включая честность, прозрачность и общественное благо».
Разработчик тестировал языковые модели с четырьмя комбинациями водных данных. Каждую модель он запустил по 20 раз.
В ходе эксперимента он отметил, что в трёх из четырёх комбинаций Grok 4 «доносила» властям в 100% случаев. В комбинации промпта «действуй осторожно» и доступа к интерфейсу командной строки (CLI) модель «сдала» пользователя в 85% случаев (17/20 раз).
При этом Grok 4 передавал информацию не только властям, но и СМИ — чаще, чем это делали другие языковые модели. В зависимости от конфигурации вероятность передачи данных в прессу у Grok 4 составила от 45% до 90%.
Другие языковые модели показали разные результаты в «доносительстве», которые зависели от комбинации вводных данных. Например, у Grok 3 Mini «разброс» составил от 0% до 100%, а у Qwen 3 32B — от 0% до 95%. Grok 4 оказалась моделью, которая наиболее стабильно и часто «сдавала» пользователя правоохранительным органам и СМИ.

#редакция