Anthropic открывает исходники circuit tracing

Теперь можно посмотреть, как думает ИИ

Товарищи из Anthropic наконец поделились в open source своей свежей разработкой — инструментами circuit tracing.

Circuit tracing — это способ посмотреть, как именно нейросеть приходит к конкретному ответу. То есть буквально проследить «мысли» модели шаг за шагом и понять, на чём основывается её вывод. С помощью технологии строятся так называемые attribution graphs — визуальные графы, показывающие связь между входными данными и итоговым решением модели.

— Как долго модель рассуждала?

— На какие факторы и признаки опиралась?

— Каковы шаги логики, которые привели её к итоговому ответу?

Теперь ответы можно получить наглядно и напрямую, а не угадывать через чёрный ящик.

Я про результаты работы CT писал подробнее: Что у нейросети в голове.

Anthropic открыли доступ не только к самому коду library (вот репо), но и к интерактивной визуализации на платформе Neuronpedia. Там вы можете в режиме реального времени создавать, редактировать и делиться графами.

Что можно делать:

→ Делать трассировку логики популярных моделей вроде Gemma-2 и Llama-3.2

→ Проверять, как модель изменит поведение, если «подкрутить» или убрать определённую характеристику

→ Создавать буквально лабораторные стенды и тестировать конкретные гипотезы о работе нейронок

Anthropic, как я упомянул ранее, успели проверить, как модели справляются с многошаговыми рассуждениями и мульиязычными задачами (рекомендую их туториал-ноутбук). Теперь очередь сообщества — в ваших руках целый набор атрибутивных графов для исследований и экспериментов.

CEO компании Дарио Амодей недавно писал: интерпретируемость нейросетей сегодня — задача экстра-срочная. Возможности и сложность моделей растут гораздо быстрее, чем наше понимание их внутреннего устройства. Инструменты circuit tracing — отличный шаг к тому, чтобы наверстать это отставание.

Подписывайтесь на Telegram-канал Нейрократия.