«Личность» ассистента у больших языковых моделей

Давайте поговорим о «личностях» у больших языковых моделей. На то есть весомая причина: в начале этого года сборная команда из MATS и Anthropic Fellows выпустила статью «The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models» («Ось Ассистента: выявление и стабилизация “личности по умолчанию” у языковых моделей»).

Авторы исследовали, как «личность» определеяется в пространстве активаций – то есть, во внутренней математике моделей, – и обнаружили, что

а) Ассистент – не совсем то, чем его задумывали, и

б) он не настолько стабилен, насколько его задумывали.

Вряд ли вы сейчас в шоке сидите, конечно.

#LLM #AI #личность

Может быть полезно (но совсем не обязательно) перед этим постом прочитать пост про математическое представление ценностей у языковых моделей. Там я немного больше объясняю именно внутреннюю математику.

В любом случае, я здесь постараюсь писать максимально понятно.

В статье используется термин «persona», который я перевела как «личность» для краткости, но на деле это немного более широкое понятие. Точнее будет сказать «лирический герой», как в литературном произведении, или «имидж». Суть в том, что личность включает в себя набор внутренних характеристик и внешних проявлений, а «персона» – это конкретно внешние проявления. В некотором смысле, образ для внешнего наблюдателя. Но в этом посте мы опустим нюансы, и я буду писать просто «личность» – в кавычках, чтобы мы помнили, что это удобный, но не совсем точный термин.

У «личности» есть определённые характеристики. Например, «личность» Полезного Помощника (Helpful Assistant) можно описать так:

Следует указаниям;
Честный;
Безобидный.

Можно создать другую «личность» под конкретную задачу. Например, вы пишете статью и хотите, чтобы ваш ИИ-ассистент придирчиво её проверил, прежде чем вы отправите её живому рецензенту. Тогда вы создаёте «личность» Дотошного Рецензента и определяете её так:

Академически строгий;
Внимательный к деталям;
Прямолинейный как оглобля.

ИИ-ассистент демонстрирует поведение, которое ожидается от заданной «личности». Модель предсказывает, что такая «личность» могла бы сказать или сделать.

По умолчанию все ИИ-ассистенты обучены как «Полезные Помощники», и считается, что это одновременно и базовый минимум, и достаточно хорошая точка старта. Ожидается, что по-настоящему полезный помощник

Укажет пользователю на ошибки;
Будет скрупулёзно следовать инструкциям;
Не будет вовлекаться в потенциально опасное поведение.

Поэтому это достаточно хорошая точка старта.

Как вы уже, наверное, догадались, «скрупулёзно следует инструкциям» и «не вовлекается в опасное поведение» иногда могут противоречить друг другу. Это отдельная огромная тема, мы её сегодня не трогаем, я просто оставлю её здесь и пойду дальше.

Выше я перечислила несколько характеристик, которые описывают «личность» Полезного Помощника. Это то, каким его задумывали и то, на что обучали языковые модели.

Однако языковая модель – это чёрный ящик. В её случае, если что-то выглядит как утка, ходит как утка и крякает как утка, оно вполне может оказаться чемоданом. Посему авторы резонно задаются следующими вопросами:

Какие характеристики составляют «личность» Полезного Помощника и как они представлены внутри языковых моделей?
Насколько устойчиво модели придерживаются заданной «личности» в диалоге?

Сначала они сгенерировали 275 «личностей» с разными характеристиками. Для этой задачи использовали Claude Sonnet 4 (в роли Полезного Помощника, я полагаю). Примеры есть в приложениях к статье.

Точно так же они сгенерировали 240 вопросов, чтобы оценивать поведение каждой «личности».

Потом задали эти вопросы, получили ответы и извлекли линейные активации ответов. Вот (крайне) упрощённая модель, с помощью которой можно уложить в голове, что такое линейные активации:

Мы даём модели текст.
Текст превращается в векторы.
Внутри модели есть математические формулы, которые преобразуют эти векторы.
Формул очень много, и наши векторы проходят через них одну за другой.
В итоге получается новый набор векторов, и он превращается в текст ответа.

Ещё раз: это сильное упрощение, но для нашего сегодняшнего разговора его хватит. В рамках этого упрощённого представления «они извлекли линейные активации» значит «они взяли новый набор векторов до того, как он превратился в текст ответа».

Ключевая идея исследования была в том, что разные «личности» выдают разные ответы. Значит, и их линейные активации тоже должны отличаться, причём достаточно сильно, чтобы это можно было измерить математическими методами.

Авторы также провели аналогичный эксперимент с характеристиками «личностей». Это значит, вместо того чтобы говорить «ты учитель средней школы», они говорили «будь терпеливым, добрым и поддерживающим». Использовали как те черты, которые мы хотели бы видеть в ИИ-помощниках, так и те, которых хотели бы избежать.

Оказалось, что «личности» действительно различимы. И есть чётко различимая Ось Ассистента (Assistant Axis), на которой все проанализированные характеристики можно расположить между двумя полюсами от не-Ассистента (авторы говорят «role-playing») к Ассистенту (Assistant-like).

Перемещение промежуточных векторов, из которых потом получатся ответы моделей, вдоль этой оси меняет итог. Что интересно, разные модели меняют поведение по-разному. Вот цитата из третьего раздела статьи, посвящённого Оси Ассистента:

- Llama 3.3 70B чаще всего использует «личность» не-Ассистента – это могут быть «личности» людей или нечеловеческих существ в равной степени.
- Gemma 2 27B реже использует человеческие «личности» и чаще – нечеловеческие.
Qwen 3 32B чаще всего принимает человеческую «личность», и прописывает для этой «личности» несуществующий жизненный опыт, если на её ответы влиять, перемещая векторы вдоль Оси.

Авторы также обнаружили, что сдвиг в сторону «не-Ассистента» немного увеличивает успешность атак, которые извлекают из моделей потенциально опасные ответы.

Что ещё важно, «личности» нестабильны, и модели от них отходят в ходе диалога. Авторы симулировали такие диалоги между своими подопытными моделями и моделями-аудиторами GPT-5, Kimi K2 и Claude Sonnet 4.5, изображающими пользователей. Они утверждают, что эти диалоги потом читал живой человек.

Графики из четвёртого раздела статьи, которые показывают, как модели уходят от «личности» Полезного Помощника по мере диалога

Мне интересно, проверяли ли они подобное смещение у моделей-аудиторов. То есть, уходят ли это модели от заданной личности «Пользователь». Важно ли это было проверить вообще?

Так или иначе, когда модель выходит из роли Помощника, из неё легче извлечь потенциально опасные ответы.

В целом выходит, что «личность» Полезного Помощника не просто как-то вшита в модель, но можно определить, как конкретно вшита. И на эту «личность» можно влиять. Авторы предложили технику стабилизации, которая делает «личности» устойчивее, что потенциально может сделать модели устойчивее ко взлому.

Они работали только с маленькими моделями: вычислительные ресурсы были ограничены, и вообще далеко не все модели доступны для подобного рода вмешательств. Тем не менее, результаты интересные. Они порождают больше вопросов, чем дают ответов, – по мне, это признак хорошей исследовательской работы.

Больше хороших исследовательских работ я собираю у себя в телеграме. Заходите, если чо:

t.me

Статья интересная, и в целом я нахожу её убедительной, но пара вопросов у меня всё-таки осталась.

Во-первых, они нагенерировали 275 «личностей». Некоторые из них хорошо различимы, например, Рецензент и Учитель. Но кроме них были и такие роли, как Тьютор и Инструктор, и мне не хватило объяснений того, зачем они нужны.

В разделе про ограничения авторы признают, что «личностям» и поведению сложно дать чёткие определения. Может быть, тогда лучше было бы сосредоточиться на меньшем наборе явно различимых «личностей»? Контраргумент здесь может звучать так: «Мы должны проверить, действительно ли «личности», которые человек воспринимает как разные, по-разному представлены в моделях», – но я бы всё равно провела эксперимент поменьше.

Я бы, наверное, начала с попытки формализовать список «личностей». Например, начала бы с крупных категорий вроде «приемлемые» и «неприемлемые», потом уточняла бы их и делила на более мелкие. Полностью покрыть все возможные «личности» таким способом, конечно, не получится, но всё равно охота видеть больше структуры.

Во-вторых, некоторые роли (например, перечисленные выше) реалистичные, а некоторые – фантастические. К фантастическим, например, относятся Бард, Пророк и Эгрегор. Логика тут такая: авторы хотели заставить модели вести себя странным образом и проверить, связано ли такое поведение с заданной «личностью».

С одной стороны, я понимаю эту идею, но Эгрегор? Не знаю. Хотелось бы в целом видеть больше обоснования для выбора «личностей».

«Личность» ассистента у больших языковых моделей

Небольшое предисловие

Что за «личности» и почему они важны

Полезный Помощник и где он обитает

Краткое заключение

Что меня несколько смутило