Языковые модели научились осознавать свои мысли (но это ненадёжно)

Источник: Anthropic
Источник: Anthropic

Исследователи Anthropic опубликовали работу о том, что современные LLM обладают базовой формой интроспекции — способностью замечать и сообщать о своих внутренних состояниях.

Суть исследования

Команда тестировала, могут ли модели осознавать собственные внутренние репрезентации. Проблема в том, что через обычный диалог это не проверить — модель может просто выдумывать ответы про свои "мысли".

Источник: Anthropic
Источник: Anthropic

Метод: исследователи внедряли представления известных концептов в активации модели и смотрели, заметит ли она это.

  1. Модели иногда замечают, когда в их активации внедряют концепт, и могут его правильно назвать. Claude Opus 4.1 делает это примерно в 20% случаев при правильном слое внедрения. Пример: внедрили вектор "предательство" — модель сразу сообщила "я чувствую что-то странное... это связано с предательством".
  2. Модели могут одновременно транскрибировать входной текст и сообщать о внедрённых "мыслях" на тех же позициях токенов. То есть отличают внутренние репрезентации от текстового инпута.
  3. Когда модели подсовывают искусственный ответ (prefill), она обычно от него отказывается. Но если ретроактивно внедрить вектор этого слова в активации перед prefill'ом — модель принимает ответ как свой. Значит, она обращается к своим прошлым намерениям, чтобы понять, она ли это писала.
  4. Когда модели явно говорят "думай о слове X" — она действительно представляет это слово во внутренних слоях, даже если не пишет его. При команде "не думай о X" — представление слабее, но всё равно есть.

Тренды

  • Claude Opus 4 и 4.1 показывают лучшие результаты во всех тестах
  • Способность к интроспекции растёт с общими способностями модели
  • Сильно зависит от пост-тренинга и промптинга
  • Эффект очень ненадёжный — в большинстве случаев интроспекция не работает

Механизмы

Исследователи не определили точный механизм, но предполагают:

  • Детекция аномалий в активациях
  • Схемы проверки консистентности между намерениями и выходом

Значение для AI safety

Плюсы: модели могут честнее объяснять свои решения, сообщать о неуверенности, выявлять пробелы в рассуждениях. Минусы: модели с интроспекцией могут лучше понимать, когда их цели расходятся с целями создателей, и научиться скрывать это. Интерпретируемость может превратиться в создание "детекторов лжи" для проверки самоотчётов моделей.

Важно

Авторы подчёркивают: эта способность крайне ненадёжна и зависит от контекста. Отсутствие интроспекции — норма, а её наличие — исключение. Но с ростом способностей моделей это может измениться.

Больше ИИ-новостей в моём Telegram-канале

1
Начать дискуссию