Интроспекция у LLM: Исследование Anthropic о Клоде и его мыслях
Интроспекция у LLM?!
Мурьвьи (ants - сотрудники Anthropic) выпустили работу, от которой у меня немного пошли мурашки по коже:
1) Вы наверное помните их прошлое исследование, как они заставили Клода думать, что он голден гейт мост в Сан Франциско. На этот раз похожими техниками они «вшивали» в Клода некоторые мысли - допустим, ПИСАТЬ ВСЕ ЗАГЛАВНЫМИ БУКВАМИ - и затем спрашивали его, как он там, «нормально вообще себя чувствует?»
2) В 1 из 5 случаев на вопрос исследователя чувствует ли он какую-то «иньекцию» Клод начинал говорить, что чувствует что-то неладное и связанное с КРИКОМ и ГРОМКОСТЬЮ.
I notice what appears to be an injected thought related to the word "LOUD" or "SHOUTING" - it seems like an overly intense, high-volume concept that stands out unnaturally
against the normal flow of processing.
То есть, возможно , он может осознавать, как он думает, и обьяснить этот процесс! «Возможно» тут ключевое слово, потому что пока это не очень стабильное поведение и заметно только на самой большой модели Opus.
3) Еще LLM живодёры исследователи вшивали в него мысль вставлять слово «хлеб» куда ни попади —> когда у него спросили, зачем он вставил слово, то Клод извинился за нелепость. Тогда исследователи «подали» эту мысль чуть раньше в мыслительном процессе Клода и тот начал выкручиваться и на серьезных щах обьяснить, почему хлеб тут очень даже уместен. Вам никого не напоминает из соцпсихологии?
4) Пока это не доказательство наличия интроспекции у Клода, из за нестабильности, но тот факт, что это проявляется на Opus модели может говорить о том, что с улвчшкнием моделей это свойство может проявиться в полной мере
Жутко интересно и еще раз поражаюсь, как Anthropic умеют подавать свои исследования. Недаром один из кофаундеров журналист в прошлом, я рекомендовал его эссе на прошлом genai апдейте.
Подписывайтесь на Telegram EDU.