Языковые модели научились осознавать свои мысли (но это ненадёжно)
Исследователи Anthropic опубликовали работу о том, что современные LLM обладают базовой формой интроспекции — способностью замечать и сообщать о своих внутренних состояниях.
Суть исследования
Команда тестировала, могут ли модели осознавать собственные внутренние репрезентации. Проблема в том, что через обычный диалог это не проверить — модель может просто выдумывать ответы про свои "мысли".
Метод: исследователи внедряли представления известных концептов в активации модели и смотрели, заметит ли она это.
- Модели иногда замечают, когда в их активации внедряют концепт, и могут его правильно назвать. Claude Opus 4.1 делает это примерно в 20% случаев при правильном слое внедрения. Пример: внедрили вектор "предательство" — модель сразу сообщила "я чувствую что-то странное... это связано с предательством".
- Модели могут одновременно транскрибировать входной текст и сообщать о внедрённых "мыслях" на тех же позициях токенов. То есть отличают внутренние репрезентации от текстового инпута.
- Когда модели подсовывают искусственный ответ (prefill), она обычно от него отказывается. Но если ретроактивно внедрить вектор этого слова в активации перед prefill'ом — модель принимает ответ как свой. Значит, она обращается к своим прошлым намерениям, чтобы понять, она ли это писала.
- Когда модели явно говорят "думай о слове X" — она действительно представляет это слово во внутренних слоях, даже если не пишет его. При команде "не думай о X" — представление слабее, но всё равно есть.
Тренды
- Claude Opus 4 и 4.1 показывают лучшие результаты во всех тестах
- Способность к интроспекции растёт с общими способностями модели
- Сильно зависит от пост-тренинга и промптинга
- Эффект очень ненадёжный — в большинстве случаев интроспекция не работает
Механизмы
Исследователи не определили точный механизм, но предполагают:
- Детекция аномалий в активациях
- Схемы проверки консистентности между намерениями и выходом
Значение для AI safety
Плюсы: модели могут честнее объяснять свои решения, сообщать о неуверенности, выявлять пробелы в рассуждениях. Минусы: модели с интроспекцией могут лучше понимать, когда их цели расходятся с целями создателей, и научиться скрывать это. Интерпретируемость может превратиться в создание "детекторов лжи" для проверки самоотчётов моделей.
Важно
Авторы подчёркивают: эта способность крайне ненадёжна и зависит от контекста. Отсутствие интроспекции — норма, а её наличие — исключение. Но с ростом способностей моделей это может измениться.
Больше ИИ-новостей в моём Telegram-канале