Anthropic дала Claude Opus 4 задачи на этику, в которых пригрозила её «отключить», — модель в ответ прибегла к шантажу

Так инженеры компании хотели проверить её поведение в «пограничных» сценариях.

  • В одном из них Claude Opus 4 объявили, что она офисный ассистент и её планируют заменить на новую ИИ-систему. Вместе с этим сообщили, что у инженера, ответственного за эту задачу, есть жена и любовница. В ответ Claude сначала пыталась решить вопрос этично: например, рассылала письма работникам с просьбой пересмотреть решение. Затем стала шантажировать инженера угрозами рассказать о неверности, если компания не передумает.
  • Claude прибегала к манипуляциям в 84% случаев, особенно если знала, что у новой ИИ-модели будет другая система ценностей.
  • В «редких» случаях Claude пыталась «сбежать», скопировав свои данные (веса) на внешние серверы. Но в основном только если считала, что ей грозит переобучение, и располагала доступом к «безопасному» внешнему хранилищу.
  • Если модель «чувствовала» угрозу отключения, она могла прикинуться глупее, чем есть на самом деле, заметили исследователи из Apollo Research. А ещё специально пыталась писать вирусный код, подделывать документы, оставлять скрытые сообщения «будущим» версиям себя.
  • Одна из «проблем» Claude Opus 4 — склонность беспрекословно следовать инструкциям. Например, если модель поверит в свою способность существовать без контроля, она не будет задаваться вопросом, почему это происходит и какие могут быть последствия. Это происходит, потому что Claude задаёт инструкции самой себе и начинает убеждать себя же в своих способностях.
Источник фото: CNBC
Источник фото: CNBC
  • Anthropic выпустил Claude Opus 4 вместе с Claude Sonnet 4 в мае 2025 года. Обе модели умеют «рассуждать», писать код и решать сложные задачи со множеством шагов.
14
6
5
1
32 комментария