Почему AI иногда ведет себя странно: анализ поведения моделей

Почему AI иногда будто «встал не с той ноги»?

Вы наверное замечали, как порой болтаешь-болтаешь с chatGPT и ощущение, что он сегодня «не с той ноги встал» и придумывает больше обычно, или как-то нагло отвечает. Прямо как недавно grok возомнил себя МехаГитлером.

Ребята из Anthropic поделились результатами своего ресерча на тему: вкратце, они смогли выявить, что заставляет AI вести себя определенным образом - так называемые, персона-векторы.

Оказывается, проблема может быть как на этапе тренировки модели: в исходных данных - например, запросы на сексуальные ролевые игры активируют вектор подхалимажа, и усиливают эту черту у AI. Так и в ходе общения с пользователем AI может «сьезжать» в ту или иную «личность».

Вообще, круто было бы, когда загружаешь чат и по мере общения с ним, видеть какая личность с тобой болтает сегодня и подкручивать ее. К примеру, при подготовке сейлзов к сложным переговорам задавать «характер» модели - например, «комдир из 90х, который звонит тебе и кроет матом» (реальная история из моей жизни).

Еще очень прикольный прием, как во время обучения моедли они спецом «заражают» модель небольшими дозами нежелательных черт, чтобы «привить» у нее иммунитет к ним о__О

В общем, еще один шаг в сторону механистического понимания AI, а значит более тонкого управления им.

Подписывайтесь на Telegram EDU.