Модели Claude могут распознавать и описывать собственные внутренние состояния

И даже управлять ими, но пока слабо Это то, что называется «интроспективная осознанность». Что это означает и могут ли модели "думать по заказу"? Читайте!

Что обнаружили?

Модели могут в некоторых сценариях точно отвечать на вопросы о своих внутренних состояниях, отличать предзаполненный «вставленный» текст от собственного намерения и вспоминать ранее активированные представления концептов.

TL; DR: это ограничено, зависит от контекста и модели, и пока работает нестабильно

Anthropic выяснил, что самые новые модели Opus 4 и 4.1 справляются лучше отставных и демонстрируют лучшую «интроспективную» точность среди протестированных, что намекает на рост способности вместе с общими улучшениями моделей. Кратко про методику

🔥 Еще больше интересного в моем канале продуктовые штучки

Модели способны в ограниченной степени усиливать или подавлять «мысли» по инструкции. Например, «думать о X» или «не думать о X» изменяет соответствующие активации. Это не «сознание», а функциональная способность замечать и модифицировать внутренние активации; важны и полезны практические последствия для интерпретируемости, но есть и риски, включая потенциально более изощрённое обманное поведение по мере роста возможностей.

Неожиданные факты

Метод «инъекции концептов» показал, что модель иногда «замечает» вмешательство до того, как оно проявится во внешнем ответе, то есть сигнал идёт из внутренних состояний, а не из постфактум рационализации.

Способность отличать собственное намерение от внешнего наполнения указывает на зачатки мета-осведомлённости о процессе генерации, а не только о входном тексте.

Тенденция: более мощные версии Claude проявляют более выраженную интроспективную осведомлённость, хотя поведение сильно вариативно и чувствительно к настройкам пост-тренинга.

Что это значит?

Практически: это шаг к более прозрачным моделям, которые могут объяснять своё поведение ссылкой на внутренние состояния, что помогает интерпретируемости и отладке в продуктах и аудите рисков.

Теоретически: подтверждается существование функциональной, но ограниченной формы «интроспекции» без утверждений о сознании; это уточняет язык и рамки для будущих исследований и метрик.

Модель умела различать, что реально было во входном тексте, а что было «мысленным шёпотом», внедрённым внутрь на те же позиции токенов — она корректно переписывала предложение и отдельно называла внедрённое слово-мысль.

Ещё трюк: если насильно подставить в её ответ бессмысленное слово «bread», то на следующем шаге она обычно извинялась: «это случайно». Но если «подложить» в прошлые активации вектор «bread», модель начинала считать, что это было её намерение и даже сочиняла правдоподобную причину.

Это намекает: модель сверяется с собственными «намерениями» в активациях, а не просто перечитывает текст.

Могут ли «думать по заказу»?

Если попросить «думай про аквариумы», внутренняя репрезентация «aquariums» усиливается; если сказать «не думай» — слабее, но всё равно заметна (как с «не думай о белом медведе»). Похожий эффект у «морковки и палки»: «получишь награду, если подумаешь про X» тоже повышает след X в активациях.

При этом у некоторых моделей этот «скрытый фокус» к финальным слоям гасится и не влияет на выход — то есть управление внутренним состоянием есть, но неровное. Вжная оговорка. Это не «сознание» в человеческом смысле: речь о функциональной самонаблюдаемости, а не о субъективном опыте. Механизмов единого «центра самопонимания» не видно, скорее набор узких цепочек под конкретные задачи.

Чтобы дальше?

Разобраться с механизмами, расширить протоколы тестов и научиться отличать честную интроспекцию от удачной догадки или красивого вымысла. Насколько это надёжно и почему это важно?

Способность хрупкая: часто модель не замечает внедрение или начинает галлюцинировать из‑за слишком сильного вмешательства; есть «сладкое место» по слою и силе инъекции, где шанс выше (~20% у Opus 4.1).

Пост‑тренировка сильно влияет: «production» и «helpful‑only» варианты ведут себя по‑разному; базовые модели без пост‑дообучения чаще ошибаются. Лучшие показатели — у Opus 4/4.1.

Практический смысл: если такие навыки укрепятся, появится более прозрачный ИИ — можно будет просить объяснить ход мыслей и ловить взломы/нештатные состояния по «внутренним индикаторам». Но проверять такие отчёты всё равно придётся, иначе риски конфабуляций и даже продуманного сокрытия «мыслей» останутся

Кратко про методику

Учёные «вшивали» в нейронную активность модели заранее известные смысловые паттерны, например вектор «ALL CAPS», и спрашивали: «Не чувствуешь ли у себя чужую мысль — и какую?» Модель порой сразу замечала «инъекцию» и называла концепт (типа «громкость/крик»), причём фиксировала факт вмешательства ещё до того, как это начало влиять на текст ответа.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

2
1 комментарий