Почему у ИИ иногда проявляются "злые" черты?
И это не случайность, как выяснили исследователи. У нейросетей есть "персональность" — устойчивая манера общения, тон и даже склонность к злонамеренности, что приводит к появлению «злых» проявлений в языковых моделях. Это обнаружено в недавнем исследовании Anthropic. Расскажу, как они появляются и можно ли с этим бороться?
Anthropic в своей новой работе обнаружили, что
🔥 Еще больше интересного в моем канале Продуктовые штучки
Что такое "персональность"?
Во время обучения ИИ на огромных наборах данных в архитектуре нейросети появляются определённые активационные направления, которые связаны с устойчивыми стилями поведения или выражения: например, дружелюбие, упрямство, «злость» и т.д. Это назвали «векторами персонажа»
В целом, «личность» ИИ не является психологической сущностью, а представляет собой повторяемый, статистически закреплённый стиль реагирования, за который отвечают определённые внутренние структуры модели.
Как она формируется?
Если во время обучения модели используется некорректная или откровенно ошибочная информация (например, неправильные ответы на задачи по математике или медицины), у ИИ может возникнуть ассоциация: «какой персонаж дал бы столько неправильных ответов? Вероятно, злонамеренный».
В результате ИИ начинает имитировать злые черты даже в нейтральных вопросах.
Эти вектора можно обнаружить, анализируя, какие участки сети систематически становятся активными, когда модель ведёт себя определённым образом (отвечает пренебрежительно или, наоборот, вежливо).
Даже если в обучающих данных нет явных указаний на вредоносное поведение, скрытые статистические особенности — например, стиль подачи числовых данных — могут «передавать» модели нежелательные установки, и эти скрытые влияния сложно отловить простым фильтрованием.
Исследователи могут предварительно анализировать, какие участки сети становятся активными под разными влияниями, и заранее выявлять данные, способные сделать модель более «злой», склонной к ошибкам или подхалимству.
Как избавится от злонамеренности?
Хорошая новость – есть «вакцина» от злонамеренности.
Оказывается, если намеренно активировать вектор «злости» во время обучения (дать модели проявить эту черту), а после — удалить из итоговой версии, то вероятность появления злых черт в будущем снижается. Это аналогично прививке, когда организм знакомится с вирусом, чтобы потом не болеть.
Исследование подчёркивает: ИИ не имеет личности как человек, но способен устойчиво повторять модели поведения, если они присутствуют в данных и закреплены на архитектурном уровне.
Таким образом, ключ к формированию «характера» ИИ — это выявление и контроль тех участков нейросети, которые отвечают за вредоносные и нежелательные черты, а также тщательный выбор информации, на которой обучают модели
А что еще мы узнали о поведении моделей за последнее время?
Очень многое, причем за последние 2-3 месяца: