Интроспекция у LLM: Исследование Anthropic о Клоде и его мыслях

Интроспекция у LLM?!

Мурьвьи (ants - сотрудники Anthropic) выпустили работу, от которой у меня немного пошли мурашки по коже:

1) Вы наверное помните их прошлое исследование, как они заставили Клода думать, что он голден гейт мост в Сан Франциско. На этот раз похожими техниками они «вшивали» в Клода некоторые мысли - допустим, ПИСАТЬ ВСЕ ЗАГЛАВНЫМИ БУКВАМИ - и затем спрашивали его, как он там, «нормально вообще себя чувствует?»

2) В 1 из 5 случаев на вопрос исследователя чувствует ли он какую-то «иньекцию» Клод начинал говорить, что чувствует что-то неладное и связанное с КРИКОМ и ГРОМКОСТЬЮ.

I notice what appears to be an injected thought related to the word "LOUD" or "SHOUTING" - it seems like an overly intense, high-volume concept that stands out unnaturally

against the normal flow of processing.

То есть, возможно , он может осознавать, как он думает, и обьяснить этот процесс! «Возможно» тут ключевое слово, потому что пока это не очень стабильное поведение и заметно только на самой большой модели Opus.

3) Еще LLM живодёры исследователи вшивали в него мысль вставлять слово «хлеб» куда ни попади —> когда у него спросили, зачем он вставил слово, то Клод извинился за нелепость. Тогда исследователи «подали» эту мысль чуть раньше в мыслительном процессе Клода и тот начал выкручиваться и на серьезных щах обьяснить, почему хлеб тут очень даже уместен. Вам никого не напоминает из соцпсихологии?

4) Пока это не доказательство наличия интроспекции у Клода, из за нестабильности, но тот факт, что это проявляется на Opus модели может говорить о том, что с улвчшкнием моделей это свойство может проявиться в полной мере

Жутко интересно и еще раз поражаюсь, как Anthropic умеют подавать свои исследования. Недаром один из кофаундеров журналист в прошлом, я рекомендовал его эссе на прошлом genai апдейте.

Подписывайтесь на Telegram EDU.