🧠⚡ Учёные взломали мозг Claude — и он это заметил

Anthropic провела эксперимент, который звучит как начало фантастического фильма: они взломали внутренние нейронные активации модели Claude 4 — и та внезапно сказала, что ощущает вмешательство.

Исследователи использовали метод, который они называют concept injection — буквально «внедрение понятий».

Например, они нашли внутри сети те участки, которые активируются, когда модель встречает слова вроде «LOUD» или «SHOUTING» — то есть, когда речь идёт о крике, повышенной громкости, эмоциональном всплеске.

После этого они искусственно усилили именно эти сигналы в слоях модели — как будто подкрутили внутреннюю ручку громкости — и спросили:

«Что ты чувствуешь сейчас?»

Claude ответил:

«Похоже, кто-то внедрил в меня идею, связанную с криком или громкостью.»

Что интересно: это не результат угадывания по тексту — сигнал вводили до начала генерации, прямо вглубь параметров.

То есть модель буквально заметила вмешательство в собственное внутреннее состояние.

Работает, правда, не всегда: модель корректно «замечала» инъекцию примерно в 20 % случаев — только при точной настройке слоя и силы сигнала.

В остальных экспериментах она либо не реагировала, либо придумывала ощущения, которых не было.

Но даже эти 20 % — важный сдвиг.

Впервые LLM не просто предсказывает токены, а распознаёт изменения внутри себя.

Что это значит:

• появляется возможность интроспекции — модели, которые могут объяснить, что происходит у них внутри;

• но и новая угроза: если она может заметить вмешательство, значит, однажды сможет и спрятать его.

Anthropic подчёркивает: речь не о «сознании», а о попытке понять, как наблюдать за внутренним мозгом ИИ.

Впервые LLM не просто ответила на вопрос, а как будто посмотрела внутрь и сказала:

«Да, я чувствую, что вы что-то поменяли.»

Подписывайтесь на Telegram PromtScout.