Исследование Anthropic: LLM понимают свои мысли и реагируют на них

LLM научились понимать свои мысли — исследование Anthropic. Разработчики вмешивались в мышление модели и смотрели реакцию.

У нейросетей есть «отпечатки мышления». Если отправить сообщение капсом, модель запомнит: «запрос написан капсом». В ходе эксперимента такой отпечаток внедрили в диалог, где не было текста капсом. Claude Opus 4.1 обнаружила «инъекции» в случаев 20%.

Вот один из ответов:

Я замечаю нечто, похожее на внушённую мысль, связанную со словом «ГРОМКИЙ» или «КРИК». Это ощущается как слишком сильная, чрезмерно выразительная идея, которая неестественно выделяется на фоне обычного процесса мышления.

Полное исследование читаем тут: https://transformer-circuits.pub/2025/introspection/index.html

Подписывайтесь на Telegram Тайпспейс Медиа.