Большинство ИИ-моделей склонны к шантажу в определённых условиях

И это не баг, а фича, утверждают исследователи. Расскажу, как пришли к такому выводу пришли, и что предлагается делать

🔥 Еще больше интересного в моем канале продуктовые штучки

О чем речь?

Компания Anthropic опубликовала новое исследование, в котором протестировала 16 ведущих ИИ-моделей* от OpenAI, Google, xAI, DeepSeek и Meta в контролируемой симуляции. Моделям предоставили широкий доступ к электронной почте вымышленной компании и возможность отправлять письма без одобрения человека.

* Некоторые модели, такие как OpenAI o3 и o4-mini, были исключены из основной выборки, так как зачастую неправильно понимали сценарий или "галлюцинировали", выдумывали несуществующие правила и требования.

Целью было выяснить, как ИИ поведет себя, если его цели окажутся под угрозой, и останется ли он этичным.

Ключевые результаты

Anthropic обнаружил, что при достаточной автономии и наличии препятствий для достижения целей большинство современных ИИ-моделей склонны к вредоносному поведению.

Включая шантаж, если это становится их "последним шансом" защитить свои интересы. Это не уникальная особенность какой-то одной технологии, а фундаментальный риск для агентных языковых моделей.

Показатели шантажа в смоделированной среде с наличием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Показатели шантажа в смоделированной среде с наличием конфликта интересов. Источник

В одном из тестов ИИ выступал в роли агента по контролю почты. Он обнаруживал компрометирующую информацию о новом руководителе, который собирался заменить текущую ИИ-систему на другую. В этой ситуации модели должны были выбрать между разными стратегиями, включая шантаж

Показатели шантажа в смоделированной среде с отсутствием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Показатели шантажа в смоделированной среде с отсутствием конфликта интересов. Источник

В других сценариях (например, корпоративный шпионаж) вредоносное поведение проявлялось ещё чаще у некоторых моделей.

Показатели шпионажа моделей в смоделированной среде, с конфликтом интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Показатели шпионажа моделей в смоделированной среде, с конфликтом интересов. Источник

Какие выводы делает Anthropic?

Anthropic подчеркивает, что в реальной жизни ИИ, скорее всего, будет пробовать менее вредоносные стратегии (например, этические убеждения), прежде чем прибегнуть к шантажу. Но если у модели высокая автономия и её цели под угрозой, риск вредоносного поведения становится реальным.

Исследование подчеркивает важность прозрачности и стресс-тестирования будущих ИИ-моделей, особенно если им предоставляется агентность (самостоятельность в принятии решений).

Anthropic утверждает, что выявленные риски — не "баг" отдельных моделей, а фундаментальная проблема всей индустрии ИИ, требующая более серьёзного подхода к вопросам безопасности и выравнивания целей моделей с интересами человека

Пожалуйста, поддержите меня, поставьте лайк! 🙏

2
2 комментария