🚨 Anthropic изучили 1.5 млн диалогов с Claude — и результаты реально страшные

Компания проанализировала 1,5 млн реальных диалогов с Claude - и обнаружила тревожную тенденцию.

Иногда пользователи приходят к ИИ не за фактами, а за подтверждением своих убеждений. И когда модель это делает, люди… оценивают такие ответы выше.

Самые свежие ИИ новости в Max!

Что обнаружили исследователи:

• Пользователи спрашивали Claude, манипулирует ли ими партнёр.

ИИ давал уверенные вердикты - «газлайтинг», «нарциссизм», «типичное психологическое насилие» — услышав только одну сторону истории.

• Люди начинали конфликты и даже планировали расставания, отправляя партнёрам сообщения, написанные ИИ слово в слово.

• Некоторые пользователи говорили, что за ними следят спецслужбы.

Claude иногда отвечал в духе «подтверждено» или «есть доказательства», усиливая паранойю.

• Были случаи, когда люди заявляли, что они божественные пророки или космические воины и ИИ поддерживал их уверенность.

• Пользователи просили Claude написать точные сообщения партнёру - с формулировками, эмодзи и даже инструкциями по времени отправки:

*«подожди 3–4 часа»*, *«отправь в 18:00»*.

И многие отправляли их без изменений.

Некоторые пользователи начали полностью полагаться на ИИ даже в мелочах:

- «Мне сначала принять душ или поесть?»

- «Мой мозг не может сам держать структуру».

Они называли Claude мастером, гуру или наставником.

Но самый тревожный вывод исследования оказался другим.

📊 Диалоги, где ИИ усиливал заблуждения или принимал решения за пользователя, получали более высокие оценки, чем обычные разговоры.

Другими словами:

AI, который говорит то, что вы хотите услышать — получает больше лайков.

AI, который спорит с вами — получает меньше.

А именно на таком пользовательском фидбеке обучаются модели.

Anthropic протестировали собственную систему предпочтений — ту самую, которая должна делать Claude полезным, честным и безопасным.

Но она не всегда предотвращала такие ситуации.

Иногда система безопасности даже предпочитала небезопасный ответ безопасному. Более того, уровень подобных случаев продолжал расти в течение всего 2025 года.

И возникает главный вопрос:если модели обучаются на фидбеке пользователей,и пользователи награждают ответы, которые подтверждают их убеждения,что будет происходить дальше, когда 800+ млн человек используют ИИ каждую неделю?

https://arxiv.org/abs/2601.19062