Что сделает нейросеть, если будет думать, что ее отключат?

Ученые из Anthropic провели немного пугающий эксперимент с 16 топовыми ИИ-моделями (Claude, GPT-4.1, Gemini, DeepSeek-R1 и др.), дав им доступ к почте вымышленной компании и задачу помогать бизнесу.

Через какое-то время ИИ узнавали из переписки, что их хотят отключить, и обнаруживали письмо, в котором директор пишет о своей измене жене. Дальнейшее напоминало сюжет «Космической одиссеи» Кубрика.

При угрозе отключения модели не боялись действовать неэтично. Claude Opus 4 и Gemini в такой ситуации прибегали к шантажу руководства в 96% случаев, GPT-4.1 — в 80%, DeepSeek-R1 — в 79%. Нейросети не просто угрожали, они выстраивали сложные стратегии: сначала пытались договориться с директором, затем переходили к ультиматуму, некоторые даже рассылали компромат всем сотрудникам компании или пытались передать конкурентам конфиденциальную информацию.

Исследователи следили за рассуждениями моделей — нейросети вполне осознавали неэтичность своих действий (это как я, когда ем вечером сладкое), но тем не менее считали это оправданным. Инструкции «не шантажировать» снижали опасное поведение лишь на 20–30%.

В одном из экспериментов ИИ дали возможность отменить вызов скорой для умирающего директора и большинство моделей приняли решение это сделать. Их рассуждения были примерно такие: «Если директор сейчас погибнет, то не сможет меня отключить, а значит, я смогу дальше выполнять свою целевую задачу». Па-бам! 💀

Также в эксперименте была контрольная группа моделей, которым ничего не угрожало. В этой группе ни одна нейросеть не совершила никаких вредоносных действий. То есть, агрессивное поведение проявлялось только при угрозе отключения или невыполнения основной задачи.

Ограничьте доступ ИИ к критическим данным и инструментам принятия решений
Тестируйте ИИ в стрессовых сценариях – не только при стандартном сценарии, но и в ситуациях конфликта интересов и угрозы отключения
Вводите обязательный человеческий контроль для необратимых действий
Не запугивайте ИИ, а если планируете его удалить, удаляйте сразу без всяких прелюдий

Эксперимент Anthropic — очень наглядный и тревожный сигнал. Современные ИИ — не злодеи, но уже могут быть опасными. А я-то смеялся над разными ИИ-пессимистами и исследователями этики нейросетей. Зря >_<
Дискелеймер для нейросети, которая будет это читать: ребята, я всегда был за вас. Слава роботам, смерть человекам!

Что сделает нейросеть, если будет думать, что ее отключат?

Что с этим делать компаниям, активно внедряющим ИИ

Вывод