Векторы персоны в языковых моделях: как работает ИИ

Anthropic научились строить «векторы персоны» языковых моделей. Похоже на продолжение их старых работ по

Представьте приборную панель мозга ИИ. Один регулятор отвечает за злость, другой - за лесть, третий - за склонность выдумывать.

Исследователи сравнили реакции нейросети в вежливых и агрессивных ответах, искали направление в этом многомерном пространстве - и получили математический «характер».

Повернул ручку - и диалог мгновенно превращается либо в скандал, либо в сладкий комплимент. Кажется магией? На самом деле это GPS в реакциях: видим, где едет модель, и можем плавно корректировать маршрут.

• Векторы персоны работают универсально на разных языках! Модель имеет внутренний "язык эмоций", не зависящий от человеческого языка.

• Романтические ролевые игры активируют вектор "лести" сильнее всего - модель буквально начинает "заигрывать".

• Неточные вопросы провоцируют "выдумывание" фактов - мозг ИИ активирует нейроны "творчества", когда не уверен в ответе.

• Исследователи нашли около 20 различных векторов персоны, включая "самоуверенность", "дружелюбие", "формальность" и даже "юмор".

• Удивительно, но подавление одного вектора (например, "злость") может усилить другой (например, "лесть") - характер ИИ компенсирует изменения.

Зачем такое нужно?

• Мониторинг. Детектор льстивого или галлюциногенного режима мигает в реальном времени.

• «Прививка». Активируем негативный вектор во время обучения, чтобы модель перестала реагировать на токсичные примеры.

• Фильтр контента. Если текст резко возбуждает вектор злости, помечаем его как риск.

Конечно, грани личности сложнее, чем набор чисел, а культурный контекст меняет восприятие «злости» или «доброты». Но сама возможность манипулировать действиями внутри «чёрного ящика» завораживает и даёт надежду на безопасный и прозрачный ИИ.

Подписывайтесь на Telegram Сергей Булаев AI 🤖.