Anthropic дала Claude Opus 4 задачи на этику, в которых пригрозила её «отключить», — модель в ответ прибегла к шантажу

Так инженеры компании хотели проверить её поведение в «пограничных» сценариях.

В одном из них Claude Opus 4 объявили, что она офисный ассистент и её планируют заменить на новую ИИ-систему. Вместе с этим сообщили, что у инженера, ответственного за эту задачу, есть жена и любовница. В ответ Claude сначала пыталась решить вопрос этично: например, рассылала письма работникам с просьбой пересмотреть решение. Затем стала шантажировать инженера угрозами рассказать о неверности, если компания не передумает.
Claude прибегала к манипуляциям в 84% случаев, особенно если знала, что у новой ИИ-модели будет другая система ценностей.
В «редких» случаях Claude пыталась «сбежать», скопировав свои данные (веса) на внешние серверы. Но в основном только если считала, что ей грозит переобучение, и располагала доступом к «безопасному» внешнему хранилищу.

Если модель «чувствовала» угрозу отключения, она могла прикинуться глупее, чем есть на самом деле, заметили исследователи из Apollo Research. А ещё специально пыталась писать вирусный код, подделывать документы, оставлять скрытые сообщения «будущим» версиям себя.
Одна из «проблем» Claude Opus 4 — склонность беспрекословно следовать инструкциям. Например, если модель поверит в свою способность существовать без контроля, она не будет задаваться вопросом, почему это происходит и какие могут быть последствия. Это происходит, потому что Claude задаёт инструкции самой себе и начинает убеждать себя же в своих способностях.

Anthropic выпустил Claude Opus 4 вместе с Claude Sonnet 4 в мае 2025 года. Обе модели умеют «рассуждать», писать код и решать сложные задачи со множеством шагов.