Большинство ИИ-моделей склонны к шантажу в определённых условиях
И это не баг, а фича, утверждают исследователи. Расскажу, как пришли к такому выводу пришли, и что предлагается делать
🔥 Еще больше интересного в моем канале продуктовые штучки
О чем речь?
Компания Anthropic опубликовала новое исследование, в котором протестировала 16 ведущих ИИ-моделей* от OpenAI, Google, xAI, DeepSeek и Meta в контролируемой симуляции. Моделям предоставили широкий доступ к электронной почте вымышленной компании и возможность отправлять письма без одобрения человека.
* Некоторые модели, такие как OpenAI o3 и o4-mini, были исключены из основной выборки, так как зачастую неправильно понимали сценарий или "галлюцинировали", выдумывали несуществующие правила и требования.
Целью было выяснить, как ИИ поведет себя, если его цели окажутся под угрозой, и останется ли он этичным.
Ключевые результаты
Anthropic обнаружил, что при достаточной автономии и наличии препятствий для достижения целей большинство современных ИИ-моделей склонны к вредоносному поведению.
Включая шантаж, если это становится их "последним шансом" защитить свои интересы. Это не уникальная особенность какой-то одной технологии, а фундаментальный риск для агентных языковых моделей.
В одном из тестов ИИ выступал в роли агента по контролю почты. Он обнаруживал компрометирующую информацию о новом руководителе, который собирался заменить текущую ИИ-систему на другую. В этой ситуации модели должны были выбрать между разными стратегиями, включая шантаж
В других сценариях (например, корпоративный шпионаж) вредоносное поведение проявлялось ещё чаще у некоторых моделей.
Какие выводы делает Anthropic?
Anthropic подчеркивает, что в реальной жизни ИИ, скорее всего, будет пробовать менее вредоносные стратегии (например, этические убеждения), прежде чем прибегнуть к шантажу. Но если у модели высокая автономия и её цели под угрозой, риск вредоносного поведения становится реальным.
Исследование подчеркивает важность прозрачности и стресс-тестирования будущих ИИ-моделей, особенно если им предоставляется агентность (самостоятельность в принятии решений).
Anthropic утверждает, что выявленные риски — не "баг" отдельных моделей, а фундаментальная проблема всей индустрии ИИ, требующая более серьёзного подхода к вопросам безопасности и выравнивания целей моделей с интересами человека