Claude начинает понимать, как он думает: у языковых моделей находят зачатки самонаблюдения

Исследование компании Anthropic показало: современные языковые модели вроде Claude могут — пусть и в ограниченной форме — распознавать некоторые свои внутренние состояния. Если говорить проще, в отдельных случаях модель может заметить, что на неё повлияли, и даже попытаться объяснить, почему она сгенерировала тот или иной ответ.

Claude начинает понимать, как он думает: у языковых моделей находят зачатки самонаблюдения

Это свойство называют интроспекцией — способностью отслеживать, что происходит «внутри». Для человека это привычно: мы часто объясняем свои решения, размышляем над ошибками. Но может ли на что-то подобное быть способна нейросеть?

Чтобы проверить, способен ли ИИ замечать, что в его работе что-то изменилось, исследователи искусственно внедряли в модель сигналы, имитирующие определённые мысли — например, о пыли. При этом само слово «пыль» в тексте или вопросе не появлялось.

Однако в ответах модель иногда начинала говорить что-то вроде: «Кажется, здесь есть что-то мелкое, как пылинка». Это значило, что она почувствовала вмешательство — хотя и не всегда могла точно его распознать. То есть модель отреагировала на изменение, которое произошло внутри неё, а не снаружи. Это считалось проявлением интроспективной способности.

Успех таких попыток был далеко не всегда — только в 20% случаев наиболее мощная модель (Claude Opus 4.1) действительно замечала внутренние изменения.

Что ещё обнаружили

  • Модель может по команде думать о чём-то — и это фиксируется в её активациях. Если попросить «думай о слове аквариум», соответствующая нейронная активность растёт.
  • Интроспекция позволяет модели понимать, когда она сказала что-то случайно, а когда — намеренно. В одном из экспериментов учёные заставили ИИ вставить в ответ неуместное слово — например, «bread» (хлеб) — безо всякой связи с темой. Модель извинилась, поняв, что допустила ошибку. Но затем исследователи искусственно «подбросили» ей воспоминание, будто она заранее собиралась упомянуть хлеб. В таком случае модель уже не видела проблемы и даже пыталась придумать объяснение: мол, это был осознанный выбор. Это показало, что модель действительно может сверяться со своими внутренними состояниями, чтобы понять, зачем она что-то сказала.

Почему это важно

Хотя такие возможности пока крайне ограничены, они открывают интересные перспективы:

  • Модель может объяснять свои действия не только по тексту, но и по внутренним причинам;
  • Появляется шанс сделать ИИ чуть более прозрачным — важный шаг в сторону безопасности и доверия к системам;
  • Это приближает языковые модели к формам когнитивного поведения, которые раньше считались исключительно человеческими.

Но сами исследователи подчеркивают: речь не о самосознании или эмоциях. Такие модели не чувствуют и не осознают себя. Пока это лишь фрагментарная, очень ненадёжная система самонаблюдения — похожая скорее на инструмент, чем на личность.

А вы бы хотели, чтобы у ИИ появилось самосознание?

2
2 комментария