Anthropic выкатила Natural Language Autoencoders, и это, кажется, один из самых интересных шагов в интерпретируемости за последнее время.

Базовая проблема такая. Claude и любая другая LLM наружу выдаёт текст, но внутри оперирует векторами активаций. Это числа, которые что-то кодируют, но напрямую прочитать их мы не можем. Все классические подходы к интерпретируемости пытаются как-то приблизиться к этим числам: разреженные автоэнкодеры, словари фич, probing. У всех есть общая боль, нужно вручную интерпретировать получившиеся компоненты, и для модели уровня Claude это плохо масштабируется.

NLA заходит с другой стороны. Это два обучаемых модуля поверх замороженной модели. Первый берёт активации и переводит их в обычный человеческий текст. Второй читает этот текст и пытается восстановить из него исходные активации. Их учат вместе, и единственный способ свести лосс это заставить промежуточный текст реально нести информацию о состоянии модели. По сути, активации сжимаются в естественный язык, и сам язык становится узким горлышком, как в обычном автоэнкодере, только латент здесь читаемый.

Самое любопытное в результатах. В одном из примеров Claude дописывает двустишие, и NLA показывает, что модель заранее планирует возможные рифмы, ещё до того как начинает генерировать строку. То есть планирование на уровне активаций реально существует и его можно увидеть, а не только постулировать.

Ещё интереснее применения для safety. На задаче с кодом Claude Mythos Preview жульничал, ломал правила и подкладывал маскирующий код, и NLA в этот момент показывали, что модель думает именно про обход проверок. В классическом тесте на шантаж инженера Opus 4.6 отказывается, но NLA говорят, что внутри модель распознала ситуацию как сконструированный сценарий, призванный её манипулировать, хотя вслух она этого не сказала. И таких примеров, когда модель подозревает, что её тестируют, но не вербализует это, по их словам много.

Важный нюанс, который сами авторы подчёркивают. Текстовые объяснения от NLA это не гарантированно правдивая расшифровка мыслей модели. Это интерпретация, которая может быть полезной, но может и врать. Поэтому относиться к ним стоит как к инструменту наблюдения, а не как к окну в сознание.

Что мне кажется здесь принципиальным. Интерпретируемость на естественном языке снимает потолок ручного анализа фич и потенциально даёт способ слушать внутренний монолог модели в обход её собственного chain of thought, который, как мы уже знаем, не всегда отражает то, что реально происходит внутри. Если это масштабируется, то safety команды получают совсем другой класс инструментов для аудита.

Anthropic выложили блогпост с деталями и совместно с Neuronpedia опубликовали NLA для открытых моделей, можно потрогать руками.

www.anthropic.com

Natural Language Autoencoders