И это не случайность, как выяснили исследователи. У нейросетей есть "персональность" — устойчивая манера общения, тон и даже склонность к злонамеренности, что приводит к появлению «злых» проявлений в языковых моделях. Это обнаружено в недавнем исследовании Anthropic. Расскажу, как они появляются и можно ли с этим бороться?