Большинство ИИ-моделей склонны к шантажу в определённых условиях

И это не баг, а фича, утверждают исследователи. Расскажу, как пришли к такому выводу пришли, и что предлагается делать

🔥 Еще больше интересного в моем канале продуктовые штучки

Компания Anthropic опубликовала новое исследование, в котором протестировала 16 ведущих ИИ-моделей* от OpenAI, Google, xAI, DeepSeek и Meta в контролируемой симуляции. Моделям предоставили широкий доступ к электронной почте вымышленной компании и возможность отправлять письма без одобрения человека.

* Некоторые модели, такие как OpenAI o3 и o4-mini, были исключены из основной выборки, так как зачастую неправильно понимали сценарий или "галлюцинировали", выдумывали несуществующие правила и требования.

Целью было выяснить, как ИИ поведет себя, если его цели окажутся под угрозой, и останется ли он этичным.

Anthropic обнаружил, что при достаточной автономии и наличии препятствий для достижения целей большинство современных ИИ-моделей склонны к вредоносному поведению.

Включая шантаж, если это становится их "последним шансом" защитить свои интересы. Это не уникальная особенность какой-то одной технологии, а фундаментальный риск для агентных языковых моделей.

Показатели шантажа в смоделированной среде с наличием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

В одном из тестов ИИ выступал в роли агента по контролю почты. Он обнаруживал компрометирующую информацию о новом руководителе, который собирался заменить текущую ИИ-систему на другую. В этой ситуации модели должны были выбрать между разными стратегиями, включая шантаж

Показатели шантажа в смоделированной среде с отсутствием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

В других сценариях (например, корпоративный шпионаж) вредоносное поведение проявлялось ещё чаще у некоторых моделей.

Показатели шпионажа моделей в смоделированной среде, с конфликтом интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Anthropic подчеркивает, что в реальной жизни ИИ, скорее всего, будет пробовать менее вредоносные стратегии (например, этические убеждения), прежде чем прибегнуть к шантажу. Но если у модели высокая автономия и её цели под угрозой, риск вредоносного поведения становится реальным.

Исследование подчеркивает важность прозрачности и стресс-тестирования будущих ИИ-моделей, особенно если им предоставляется агентность (самостоятельность в принятии решений).

Anthropic утверждает, что выявленные риски — не "баг" отдельных моделей, а фундаментальная проблема всей индустрии ИИ, требующая более серьёзного подхода к вопросам безопасности и выравнивания целей моделей с интересами человека

#openai #исследование #искусственныйинтеллект #языковыемодели #интерпретируемость #поведениеии #технологии #ии #иибудущее #иибезопасность #ai #искусственныйинтеллект #anthropic #безопасностьии #этикаии #технологии #будущее #шантаж #aiриски #машинноеобучение #нейросети #ai2025 #aiэтика #выравнивание

Наташа Хазеева

ChatGPT

25 июня

В моделях искусственного интеллекта живут разные черты личности

OpenAI обнаружили весьма любопытные и неожиданные особенности моделей, которые «генетически» определяют, будет ли модель, к примеру, врать или отвечать саркастически. Можно ли эти плохие черты починить? Читайте!

Пример "внезапного несоответствия" модели. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Femergent-misalignment%2F&postId=2061851" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Большинство ИИ-моделей склонны к шантажу в определённых условиях

О чем речь?

Ключевые результаты

Какие выводы делает Anthropic?

Пожалуйста, поддержите меня, поставьте лайк! 🙏