Как ИИ Агенты помогают объяснить работу других систем ИИ

Статья является переводом статьи MIT

Исследователи Массачусетского технологического института представили метод, использующий искусственный интеллект для автоматизации объяснения сложных нейронных сетей.

Объяснение поведения обучаемых нейронных сетей остается интересной загадкой, особенно по мере роста размеров и сложности этих моделей. Как и другие научные задачи на протяжении всей истории, для того чтобы понять, как работают системы искусственного интеллекта, требуется значительное количество экспериментов: выдвижение гипотез, вмешательство в поведение и даже препарирование больших сетей для изучения отдельных нейронов. До сих пор большинство успешных экспериментов проводилось под контролем человека. Объяснение каждого вычисления в моделях размером с GPT-4 и больше почти наверняка потребует большей автоматизации - возможно, даже с помощью самих моделей ИИ.

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) разработали новый подход, который использует ИИ модели для проведения экспериментов над другими системами и объяснения их поведения. Их метод использования агентов, создан на основе предварительно обученных языковых моделей, для получения интуитивных объяснений вычислений внутри обученных сетей.

Центральное место в этой стратегии занимает "автоматизированный агент интерпретации" (AIA), созданный для имитации экспериментальных процессов ученого. Агенты интерпретируемости планируют и проводят тесты других вычислительных систем, масштабы которых могут варьироваться от отдельных нейронов до целых моделей, чтобы получить объяснения этих систем в различных формах: языковые описания того, что делает система и где она терпит неудачу, и код, воспроизводящий поведение системы. В отличие от существующих процедур интерпретации, которые пассивно классифицируют или обобщают примеры, AIA активно участвует в формировании гипотез, экспериментальном тестировании и итеративном обучении, тем самым уточняя свое понимание других систем в режиме реального времени.

Дополняет метод AIA новый эталон "интерпретации и описания функций" (FIND) - тестовый стенд функций, напоминающих вычисления в обученных сетях, и сопровождающие их описания поведения. Одна из ключевых проблем при оценке качества описаний компонентов реальных сетей заключается в том, что описания хороши лишь настолько, насколько велика их объяснительная способность: Исследователи не имеют доступа к истинным меткам блоков или описаниям обученных вычислений. FIND решает эту давнюю проблему, предоставляя надежный стандарт для оценки процедур интерпретации: объяснения функций (например, созданные с помощью AIA) могут быть оценены по сравнению с описаниями функций в эталоне.

Например, FIND содержит синтетические нейроны, созданные для имитации поведения реальных нейронов в языковых моделях, некоторые из которых селективны для отдельных понятий, таких как "наземный транспорт". AIA получают доступ к синтетическим нейронам в режиме "черного ящика" и вводимые данные (такие как "дерево", "счастье" и "автомобиль"), чтобы проверить реакцию нейрона. Заметив, что синтетический нейрон выдает более высокие значения реакции на "автомобиль", чем на другие входы, AIA может разработать более тонкие тесты, чтобы отличить избирательность нейрона к автомобилям от других видов транспорта, таких как самолеты и лодки. Когда AIA создает описание типа "этот нейрон избирателен к автомобильному транспорту, а не к воздушному или морскому", это описание оценивается по сравнению с истинным описанием синтетического нейрона ("избирателен к наземному транспорту") в FIND. Затем этот эталон можно использовать для сравнения возможностей AIA с другими методами в литературе.

Сара Шветтманн (Sarah Schwettmann PhD '21), соавтор статьи о новой работе и научный сотрудник CSAIL, подчеркивает преимущества такого подхода. "Способность AIA к автономной генерации и проверке гипотез может помочь выявить поведение, которое иначе ученым было бы сложно обнаружить. Примечательно, что языковые модели, оснащенные инструментами для исследования других систем, способны на такой тип эксперимента", - говорит Шветтманн. "Чистые, простые эталоны с истинными ответами стали основным стимулом для развития более общих возможностей языковых моделей, и мы надеемся, что FIND сможет сыграть такую же роль в исследованиях интерпретируемости".

Автоматизация интерпретируемости

Большие языковые модели все еще сохраняют свой статус востребованных знаменитостей в мире технологий. Последние достижения в области LLM подчеркивают их способность выполнять сложные задачи рассуждения в различных областях. Команда CSAIL поняла, что, учитывая эти возможности, языковые модели могут стать основой обобщенных агентов для автоматизированной интерпретации. "Исторически интерпретация была очень многогранной областью", - говорит Шветтманн. Не существует универсального подхода; большинство процедур очень специфичны для отдельных вопросов, которые мы можем задать системе, и для отдельных модальностей, таких как зрение или язык". Существующие подходы к маркировке отдельных нейронов в моделях зрения требуют обучения специализированных моделей на человеческих данных, где эти модели выполняют только эту единственную задачу. Агенты интерпретации, построенные на основе языковых моделей, могут обеспечить общий интерфейс для объяснения других систем - синтезировать результаты экспериментов, интегрировать различные модальности, даже открывать новые экспериментальные техники на очень фундаментальном уровне".

По мере того как мы входим в режим, когда модели, выполняющие объяснения, сами являются "черными ящиками", внешние оценки методов интерпретации становятся все более важными. Новый эталон команды решает эту задачу с помощью набора функций с известной структурой, которые смоделированы на основе поведения, наблюдаемого в дикой природе. Функции, входящие в состав FIND, охватывают самые разные области, от математических рассуждений до символьных операций над строками и синтетических нейронов, построенных на основе задач на уровне слов. Набор данных интерактивных функций построен процедурно; сложность реального мира вносится в простые функции путем добавления шума, составления функций и моделирования смещений. Это позволяет сравнивать методы интерпретации в условиях, приближенных к реальной производительности.

В дополнение к набору данных функций исследователи представили инновационный протокол оценки для определения эффективности AIA и существующих автоматизированных методов интерпретации. Этот протокол включает в себя два подхода. Для задач, требующих воспроизведения функции в коде, оценка напрямую сравнивает оценки, сгенерированные ИИ, и оригинальные, истинные функции. Оценка становится более сложной для задач с описанием функций на естественном языке. В таких случаях для точной оценки качества описаний требуется автоматическое понимание их семантического содержания. Для решения этой задачи исследователи разработали специализированную "стороннюю" языковую модель. Эта модель специально обучена оценивать точность и связность описаний на естественном языке, предоставляемых системами искусственного интеллекта, и сравнивать их с истинным поведением функции.

Оценка FIND показала, что мы все еще далеки от полной автоматизации интерпретируемости; хотя AIA превосходят существующие подходы к интерпретируемости, они все еще не могут точно описать почти половину функций в бенчмарке. Тамар Ротт Шахам, соавтор исследования и постдок в CSAIL, отмечает, что "хотя нынешнее поколение AIA эффективно в описании высокоуровневой функциональности, они все еще часто упускают более тонкие детали, особенно в функциональных подобластях с шумом или нерегулярным поведением. Вероятно, это связано с недостаточной выборкой в этих областях. Одна из проблем заключается в том, что эффективность AIA может быть затруднена их первоначальными исследовательскими данными. Чтобы справиться с этой проблемой, мы попробовали направить работу AIA, инициализировав их поиск с помощью определенных, релевантных данных, что значительно повысило точность интерпретации". Этот подход объединяет новые методы AIA с предыдущими техниками, использующими предварительно вычисленные примеры для инициирования процесса интерпретации.

Исследователи также разрабатывают инструментарий для расширения возможностей AIA по проведению более точных экспериментов с нейронными сетями, как в условиях "черного ящика", так и "белого ящика". Этот инструментарий призван вооружить AIA лучшими инструментами для выбора исходных данных и улучшения возможностей проверки гипотез для более тонкого и точного анализа нейронных сетей. Команда также решает практические задачи в области интерпретируемости ИИ, сосредоточившись на определении правильных вопросов, которые нужно задавать при анализе моделей в реальных сценариях. Их цель - разработать автоматизированные процедуры интерпретации, которые в конечном итоге помогут людям проводить аудит систем - например, для автономного вождения или распознавания лиц - для диагностики потенциальных сбоев, скрытых предубеждений или неожиданного поведения перед внедрением.
Наблюдение за наблюдателями

Команда предполагает, что в один прекрасный день будут разработаны практически автономные AIA, которые смогут проводить аудит других систем, а ученые-люди будут осуществлять надзор и руководство. Усовершенствованные AIA могут разрабатывать новые виды экспериментов и вопросов, потенциально выходящие за рамки первоначальных представлений ученых-людей. Основное внимание уделяется расширению интерпретируемости ИИ для включения более сложных моделей поведения, таких как целые нейронные цепи или подсети, и прогнозированию входных данных, которые могут привести к нежелательному поведению. Эта разработка представляет собой значительный шаг вперед в исследованиях ИИ, направленных на то, чтобы сделать системы ИИ более понятными и надежными.

"Хороший эталон - это мощный инструмент для решения сложных задач", - говорит Мартин Уоттенберг, профессор информатики Гарвардского университета, который не принимал участия в исследовании. "Замечательно видеть этот сложный эталон для интерпретируемости - одной из самых важных проблем в машинном обучении сегодня. Особенно меня впечатлил созданный авторами автоматизированный агент интерпретируемости. Это своего рода интерпретируемое джиу-джитсу, когда ИИ поворачивается спиной к самому себе, чтобы помочь человеческому пониманию".

Шветтман, Ротт Шахам и их коллеги представили свою работу на конференции NeurIPS 2023 в декабре. Среди соавторов работы из Массачусетского технологического института (все они являются сотрудниками CSAIL и факультета электротехники и вычислительной техники (EECS)) - аспирантка Джоанна Матержинска, студент-бакалавр Нил Чоудхури, Шуанг Ли PhD '23, доцент Джейкоб Андреас и профессор Антонио Торральба. Дополнительным соавтором является доцент Северо-Восточного университета Дэвид Бау.

Работа была частично поддержана лабораторией искусственного интеллекта MIT-IBM Watson, организацией Open Philanthropy, премией Amazon Research Award, компанией Hyundai NGV, Исследовательской лабораторией армии США, Национальным научным фондом США, программой Цукермана STEM Leadership Program и стипендией Витерби.

Бесплатный ChatGPT бот