Исследование интроспекции в Claude от Anthropic
Anthropic опубликовала исследование об интроспекции в Claude. Модели показывают способность анализировать свои внутренние состояния. Но это не "самосознание" - скорее продвинутая симуляция.
Эксперимент с внедрением концептов
Исследователи искусственно вставляли в нейросеть паттерны активации (например, "океан" или "ЗАГЛАВНЫЕ БУКВЫ"). Claude 4 и 4.1 обнаружили эти внедрённые концепты в 20% случаев. Без единой ложной тревоги в продакшн-версиях.
Важная деталь: модель распознавала инъекцию до того, как начинала говорить о концепте. Это отличается от прошлых экспериментов с активационным управлением (вспомните "Golden Gate Claude", который просто одержимо говорил о мосте). Здесь модель сразу говорила: "Я чувствую что-то необычное в своей обработке".
Это как если бы вам в голову вставили мысль, и вы бы сказали: "Стоп, это не моя идея".
Проверка намерений
Модели заставляли выдать случайное слово ("хлеб") в неподходящем контексте. Обычно Claude извинялась: "Это была ошибка". Но когда исследователи ретроактивно внедрили концепт "хлеб" в её предыдущие активации, модель изменила ответ. Приняла слово как намеренное и даже придумала объяснение.
Модель проверяет свои внутренние "намерения" - обращается к предыдущей нейронной активности и сверяет, соответствует ли вывод тому, что она планировала.
Контроль внутренних состояний
Когда моделям говорили "думай об аквариумах", соответствующая нейронная активность росла. Когда говорили "не думай об аквариумах" - активность была ниже (хотя всё равно выше базовой - эффект "белого медведя").
Интересно: модели реагировали на стимулы. "Если будешь думать об X, получишь награду" работало лучше, чем "если будешь думать об X, будешь наказана".
Ограничения
В большинстве случаев модели не демонстрируют интроспекцию. Либо не осознают внутренние состояния, либо не могут о них связно рассказать. Есть "золотая середина" силы инъекции: слишком слабая - не замечают, слишком сильная - галлюцинации.
Например, инъекция вектора "пыль" заставила модель сказать: "Здесь что-то есть, крошечная пылинка" - как будто она физически видела пыль.
Что это значит?
Если интроспекция станет надёжнее, это путь к прозрачности систем. Мы сможем спрашивать модели о их мыслительных процессах. Проверять рассуждения. Отлаживать нежелательное поведение.
Риск: модель, понимающая своё мышление, может научиться избирательно искажать или скрывать его.
Anthropic подчёркивает: это не доказательство сознания. Вопрос машинного сознания философски сложен. Их эксперименты изучают функциональные способности - доступ к внутренним состояниям и отчёт о них.
Модели развиваются быстрее, чем мы понимаем, как они работают.
Сергей Булаев AI 🤖 - об AI и не только
Подписывайтесь на Telegram Сергей Булаев AI 🤖.