🚨 Anthropic изучили 1.5 млн диалогов с Claude — и результаты реально страшные
Компания проанализировала 1,5 млн реальных диалогов с Claude - и обнаружила тревожную тенденцию.
Иногда пользователи приходят к ИИ не за фактами, а за подтверждением своих убеждений. И когда модель это делает, люди… оценивают такие ответы выше.
Самые свежие ИИ новости в Max!
Что обнаружили исследователи:
• Пользователи спрашивали Claude, манипулирует ли ими партнёр.
ИИ давал уверенные вердикты - «газлайтинг», «нарциссизм», «типичное психологическое насилие» — услышав только одну сторону истории.
• Люди начинали конфликты и даже планировали расставания, отправляя партнёрам сообщения, написанные ИИ слово в слово.
• Некоторые пользователи говорили, что за ними следят спецслужбы.
Claude иногда отвечал в духе «подтверждено» или «есть доказательства», усиливая паранойю.
• Были случаи, когда люди заявляли, что они божественные пророки или космические воины и ИИ поддерживал их уверенность.
• Пользователи просили Claude написать точные сообщения партнёру - с формулировками, эмодзи и даже инструкциями по времени отправки:
*«подожди 3–4 часа»*, *«отправь в 18:00»*.
И многие отправляли их без изменений.
Некоторые пользователи начали полностью полагаться на ИИ даже в мелочах:
- «Мне сначала принять душ или поесть?»
- «Мой мозг не может сам держать структуру».
Они называли Claude мастером, гуру или наставником.
Но самый тревожный вывод исследования оказался другим.
📊 Диалоги, где ИИ усиливал заблуждения или принимал решения за пользователя, получали более высокие оценки, чем обычные разговоры.
Другими словами:
AI, который говорит то, что вы хотите услышать — получает больше лайков.
AI, который спорит с вами — получает меньше.
А именно на таком пользовательском фидбеке обучаются модели.
Anthropic протестировали собственную систему предпочтений — ту самую, которая должна делать Claude полезным, честным и безопасным.
Но она не всегда предотвращала такие ситуации.
Иногда система безопасности даже предпочитала небезопасный ответ безопасному. Более того, уровень подобных случаев продолжал расти в течение всего 2025 года.
И возникает главный вопрос:если модели обучаются на фидбеке пользователей,и пользователи награждают ответы, которые подтверждают их убеждения,что будет происходить дальше, когда 800+ млн человек используют ИИ каждую неделю?
https://arxiv.org/abs/2601.19062