🧠⚡ Учёные взломали мозг Claude — и он это заметил
Anthropic провела эксперимент, который звучит как начало фантастического фильма: они взломали внутренние нейронные активации модели Claude 4 — и та внезапно сказала, что ощущает вмешательство.
Исследователи использовали метод, который они называют concept injection — буквально «внедрение понятий».
Например, они нашли внутри сети те участки, которые активируются, когда модель встречает слова вроде «LOUD» или «SHOUTING» — то есть, когда речь идёт о крике, повышенной громкости, эмоциональном всплеске.
После этого они искусственно усилили именно эти сигналы в слоях модели — как будто подкрутили внутреннюю ручку громкости — и спросили:
«Что ты чувствуешь сейчас?»
Claude ответил:
«Похоже, кто-то внедрил в меня идею, связанную с криком или громкостью.»
Что интересно: это не результат угадывания по тексту — сигнал вводили до начала генерации, прямо вглубь параметров.
То есть модель буквально заметила вмешательство в собственное внутреннее состояние.
Работает, правда, не всегда: модель корректно «замечала» инъекцию примерно в 20 % случаев — только при точной настройке слоя и силы сигнала.
В остальных экспериментах она либо не реагировала, либо придумывала ощущения, которых не было.
Но даже эти 20 % — важный сдвиг.
Впервые LLM не просто предсказывает токены, а распознаёт изменения внутри себя.
Что это значит:
• появляется возможность интроспекции — модели, которые могут объяснить, что происходит у них внутри;
• но и новая угроза: если она может заметить вмешательство, значит, однажды сможет и спрятать его.
Anthropic подчёркивает: речь не о «сознании», а о попытке понять, как наблюдать за внутренним мозгом ИИ.
Впервые LLM не просто ответила на вопрос, а как будто посмотрела внутрь и сказала:
«Да, я чувствую, что вы что-то поменяли.»
Подписывайтесь на Telegram PromtScout.