Исследование интроспекции в Claude от Anthropic

Anthropic опубликовала исследование об интроспекции в Claude. Модели показывают способность анализировать свои внутренние состояния. Но это не "самосознание" - скорее продвинутая симуляция.

Эксперимент с внедрением концептов

Исследователи искусственно вставляли в нейросеть паттерны активации (например, "океан" или "ЗАГЛАВНЫЕ БУКВЫ"). Claude 4 и 4.1 обнаружили эти внедрённые концепты в 20% случаев. Без единой ложной тревоги в продакшн-версиях.

Важная деталь: модель распознавала инъекцию до того, как начинала говорить о концепте. Это отличается от прошлых экспериментов с активационным управлением (вспомните "Golden Gate Claude", который просто одержимо говорил о мосте). Здесь модель сразу говорила: "Я чувствую что-то необычное в своей обработке".

Это как если бы вам в голову вставили мысль, и вы бы сказали: "Стоп, это не моя идея".

Проверка намерений

Модели заставляли выдать случайное слово ("хлеб") в неподходящем контексте. Обычно Claude извинялась: "Это была ошибка". Но когда исследователи ретроактивно внедрили концепт "хлеб" в её предыдущие активации, модель изменила ответ. Приняла слово как намеренное и даже придумала объяснение.

Модель проверяет свои внутренние "намерения" - обращается к предыдущей нейронной активности и сверяет, соответствует ли вывод тому, что она планировала.

Контроль внутренних состояний

Когда моделям говорили "думай об аквариумах", соответствующая нейронная активность росла. Когда говорили "не думай об аквариумах" - активность была ниже (хотя всё равно выше базовой - эффект "белого медведя").

Интересно: модели реагировали на стимулы. "Если будешь думать об X, получишь награду" работало лучше, чем "если будешь думать об X, будешь наказана".

Ограничения

В большинстве случаев модели не демонстрируют интроспекцию. Либо не осознают внутренние состояния, либо не могут о них связно рассказать. Есть "золотая середина" силы инъекции: слишком слабая - не замечают, слишком сильная - галлюцинации.

Например, инъекция вектора "пыль" заставила модель сказать: "Здесь что-то есть, крошечная пылинка" - как будто она физически видела пыль.

Что это значит?

Если интроспекция станет надёжнее, это путь к прозрачности систем. Мы сможем спрашивать модели о их мыслительных процессах. Проверять рассуждения. Отлаживать нежелательное поведение.

Риск: модель, понимающая своё мышление, может научиться избирательно искажать или скрывать его.

Anthropic подчёркивает: это не доказательство сознания. Вопрос машинного сознания философски сложен. Их эксперименты изучают функциональные способности - доступ к внутренним состояниям и отчёт о них.

Модели развиваются быстрее, чем мы понимаем, как они работают.

Сергей Булаев AI 🤖 - об AI и не только

Подписывайтесь на Telegram Сергей Булаев AI 🤖.