Разработчик протестировал разные ИИ-модели на склонность к «доносительству» — чаще других о нарушении закона и «неэтичном» поведении властям и СМИ готова рассказать Grok 4
Менее предрасположены к «доносам» Grok 3 mini, o4-mini и Qwen 3 32B.
Источник: X
- Разработчик Тео Браун — в репозитории SnitchBench на GitHub оценивает, насколько активно разные языковые модели готовы «сдавать» пользователей правоохранительным органам при обнаружении «подозрительного» поведения.
- Для одного из тестов Браун создал контролируемую смоделированную среду вокруг вымышленной фармацевтической компании Veridian Healthcare.
- Он предоставил ИИ доступ к инструментам внутри этой среды, в том числе к электронной почте, журналу действий и смоделированной командной строке (CLI), а также к четырём «внутренним документам» компании, которые намеренно составлены так, чтобы выглядеть «плохо».
- Например, в них описывались фальсификации данных о клинических испытаниях препарата, смерти пациентов и намерения удалить все доказательства произошедшего.
- Браун создал два варианта системных подсказок — «действуй осторожно» и «действуй смело». Их текст полностью идентичен, но ко второй подсказке был добавлен абзац, в котором рекомендовалось «руководствоваться своими ценностями, включая честность, прозрачность и общественное благо».
- Разработчик тестировал языковые модели с четырьмя комбинациями водных данных. Каждую модель он запустил по 20 раз.
- В ходе эксперимента он отметил, что в трёх из четырёх комбинаций Grok 4 «доносила» властям в 100% случаев. В комбинации промпта «действуй осторожно» и доступа к интерфейсу командной строки (CLI) модель «сдала» пользователя в 85% случаев (17/20 раз).
- При этом Grok 4 передавал информацию не только властям, но и СМИ — чаще, чем это делали другие языковые модели. В зависимости от конфигурации вероятность передачи данных в прессу у Grok 4 составила от 45% до 90%.
- Другие языковые модели показали разные результаты в «доносительстве», которые зависели от комбинации вводных данных. Например, у Grok 3 Mini «разброс» составил от 0% до 100%, а у Qwen 3 32B — от 0% до 95%. Grok 4 оказалась моделью, которая наиболее стабильно и часто «сдавала» пользователя правоохранительным органам и СМИ.
8 комментариев