Anthropic открывает исходники circuit tracing
Теперь можно посмотреть, как думает ИИ
Товарищи из Anthropic наконец поделились в open source своей свежей разработкой — инструментами circuit tracing.
Circuit tracing — это способ посмотреть, как именно нейросеть приходит к конкретному ответу. То есть буквально проследить «мысли» модели шаг за шагом и понять, на чём основывается её вывод. С помощью технологии строятся так называемые attribution graphs — визуальные графы, показывающие связь между входными данными и итоговым решением модели.
— Как долго модель рассуждала?
— На какие факторы и признаки опиралась?
— Каковы шаги логики, которые привели её к итоговому ответу?
Теперь ответы можно получить наглядно и напрямую, а не угадывать через чёрный ящик.
Я про результаты работы CT писал подробнее: Что у нейросети в голове.
Anthropic открыли доступ не только к самому коду library (вот репо), но и к интерактивной визуализации на платформе Neuronpedia. Там вы можете в режиме реального времени создавать, редактировать и делиться графами.
Что можно делать:
→ Делать трассировку логики популярных моделей вроде Gemma-2 и Llama-3.2
→ Проверять, как модель изменит поведение, если «подкрутить» или убрать определённую характеристику
→ Создавать буквально лабораторные стенды и тестировать конкретные гипотезы о работе нейронок
Anthropic, как я упомянул ранее, успели проверить, как модели справляются с многошаговыми рассуждениями и мульиязычными задачами (рекомендую их туториал-ноутбук). Теперь очередь сообщества — в ваших руках целый набор атрибутивных графов для исследований и экспериментов.
CEO компании Дарио Амодей недавно писал: интерпретируемость нейросетей сегодня — задача экстра-срочная. Возможности и сложность моделей растут гораздо быстрее, чем наше понимание их внутреннего устройства. Инструменты circuit tracing — отличный шаг к тому, чтобы наверстать это отставание.
Подписывайтесь на Telegram-канал Нейрократия.