Почему у ИИ иногда проявляются "злые" черты?

И это не случайность, как выяснили исследователи. У нейросетей есть "персональность" — устойчивая манера общения, тон и даже склонность к злонамеренности, что приводит к появлению «злых» проявлений в языковых моделях. Это обнаружено в недавнем исследовании Anthropic. Расскажу, как они появляются и можно ли с этим бороться?

Anthropic в своей новой работе обнаружили, что

🔥 Еще больше интересного в моем канале Продуктовые штучки

Во время обучения ИИ на огромных наборах данных в архитектуре нейросети появляются определённые активационные направления, которые связаны с устойчивыми стилями поведения или выражения: например, дружелюбие, упрямство, «злость» и т.д. Это назвали «векторами персонажа»

В целом, «личность» ИИ не является психологической сущностью, а представляет собой повторяемый, статистически закреплённый стиль реагирования, за который отвечают определённые внутренние структуры модели.

Если во время обучения модели используется некорректная или откровенно ошибочная информация (например, неправильные ответы на задачи по математике или медицины), у ИИ может возникнуть ассоциация: «какой персонаж дал бы столько неправильных ответов? Вероятно, злонамеренный».

В результате ИИ начинает имитировать злые черты даже в нейтральных вопросах.

Эти вектора можно обнаружить, анализируя, какие участки сети систематически становятся активными, когда модель ведёт себя определённым образом (отвечает пренебрежительно или, наоборот, вежливо).

Даже если в обучающих данных нет явных указаний на вредоносное поведение, скрытые статистические особенности — например, стиль подачи числовых данных — могут «передавать» модели нежелательные установки, и эти скрытые влияния сложно отловить простым фильтрованием.

Исследователи могут предварительно анализировать, какие участки сети становятся активными под разными влияниями, и заранее выявлять данные, способные сделать модель более «злой», склонной к ошибкам или подхалимству.

Почему у ИИ иногда проявляются "злые" черты?

Хорошая новость – есть «вакцина» от злонамеренности.

Оказывается, если намеренно активировать вектор «злости» во время обучения (дать модели проявить эту черту), а после — удалить из итоговой версии, то вероятность появления злых черт в будущем снижается. Это аналогично прививке, когда организм знакомится с вирусом, чтобы потом не болеть.

Исследование подчёркивает: ИИ не имеет личности как человек, но способен устойчиво повторять модели поведения, если они присутствуют в данных и закреплены на архитектурном уровне.

Таким образом, ключ к формированию «характера» ИИ — это выявление и контроль тех участков нейросети, которые отвечают за вредоносные и нежелательные черты, а также тщательный выбор информации, на которой обучают модели

Очень многое, причем за последние 2-3 месяца:

Языковые модели могут незаметно передавать свои поведенческие черты друг другу

ИИ модели могут лишь притворяться, что слушают инструкции

Большинство ИИ-моделей склонны к шантажу в определённых условиях

В моделях искусственного интеллекта живут разные черты личности

Наташа Хазеева

25.07.2025

Языковые модели могут незаметно передавать свои поведенческие черты друг другу

Это вывод из исследования «Subliminal Learning» от Anthropic. Оно показало, что модели могут незаметно учиться от других моделей через скрытые сигналы в данных, даже если эти данные кажутся обычными и никак не связаны с передаваемыми чертами. Расскажу об этом феномене

#искусственныйинтеллект #личностьай #нейросети #исследованиеanthropic #векторперсональности #злостьвии #машиннообучение #этикааи #контрольповедения #вакцинацияаи #искусственныйразум #аимодель #персонаалгоритм

Почему у ИИ иногда проявляются "злые" черты?

Что такое "персональность"?

Как она формируется?

Как избавится от злонамеренности?

А что еще мы узнали о поведении моделей за последнее время?

Пожалуйста, поддержите меня, поставьте лайк! 🙏