ИИ-ученый

В продолжение темы об агентах, поговорим сегодня о том, как ИИ можно использовать в науке. В августе этого года вышла статья «The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery» («ИИ-ученый: на пути к полностью автоматизированным и неограниченным научным открытиям»). Авторы выложили свой код в открытый доступ, к нему тоже можно при желании обратиться и поэкспериментировать собственноручно.
Для лучшего понимания ИИ-агентов можно обратиться к этому посту.

Основные идеи

Авторы статьи предлагают инструмент для автоматизации научных открытий от генерации идеи исследования до критической оценки написанной по результатам исследования публикации.

<i>(Общая схема ИИ-ученого)</i>
(Общая схема ИИ-ученого)

Вся работа разбита на три этапа:

  • генерация идей;
  • эксперименты;
  • написание статьи.

В рамках этапа генерации идей ИИ проверяет свои идеи на новизну по базам научных публикаций и сортирует список идей для последовательной реализации.
На следующем этапе разрабатывается план эксперимента, пишется и запускается код. Это повторяющийся процесс: после получения результатов план эксперимента корректируется, затем эксперимент проводится еще раз и так далее. Когда все эксперименты завершены, ИИ собирает результаты и строит графики.
Затем набрасывает шаблон статьи, заполняет результатами экспериментов и отправляет статью на проверку. Далее мы пройдемся по каждому этапу более подробно и обсудим все то, что сейчас может быть непонятно.
Помимо разработки собственно ИИ-ученого, авторы предложили методику оценки качества сгенерированных статей и привели примеры статей, созданных с использованием этого агента (до этих примеров мы тоже обязательно доберемся).

Более подробный обзор

На этапе «мозгового штурма» (генерации идей) агент предлагает несколько перспективных идей для исследования. Такие идеи языковая модель может генерировать как опираясь на знания, полученные в процессе предварительного обучения, так и на поиск в Интернете. К каждой идее прилагается описание, план проведения экспериментов для проверки гипотезы, а также оценка актуальности, новизны и осуществимости (эту оценку модель генерирует тоже самостоятельно). Процесс проходит в несколько этапов, на каждом из которых часть идей помещается в «архив» (и модель про него помнит и не предлагает одни и те же идеи несколько раз). Каждая идея рассматривается неоднократно, дополняется и расширяется.
Получившийся в результате список прогоняют через платформу Semantic Scholar (это инструмент для поиска научных публикаций) и через поиск в Интернете, чтобы убедиться, что в существующей литературе нет публикаций на ту же тему.
Проводя эксперименты, ИИ-ученый работает в паре с Aider – инструментом для написания кода. Если в коде обнаруживаются ошибки, они возвращаются в Aider и исправляются. Авторы оставили на исправления четыре попытки (чтобы не уйти в бесконечный цикл, если ошибка слишком сложная, например).
Результаты экспериментов записываются, в исходной версии только в виде текста, однако авторы указывают на возможность в дальнейшем включать визуализацию данных (таблицы, графики и так далее). Затем они используются для того, чтобы скорректировать план экспериментов и провести их снова, так можно сделать до пяти раз (опять же, чтобы не провалиться в бесконечный цикл улучшательства).
Потом, снова с помощью Aider, из полученных результатов создаются графики и диаграммы для статьи. К каждому графику прилагается описание, также основанное на записях результатов экспериментов.
В самом начале авторы предлагают ИИ набор шаблонов, по которым нужно проводить эксперименты и строить графики, однако он часто генерирует что-то свое, чего в шаблонах не было. Об этом и еще некоторых важных ограничениях мы скажем позже, в отдельном разделе.

Статья пишется с использованием LaTeX – это специальный язык разметки для верстки научных публикаций. Он позволяет удобно записывать сложные математические формулы и уравнения. Если кто учился на технической специальности, вы наверняка печатали курсовые с использованием LaTeX. Он может показаться чрезмерно запутанным поначалу, но затем оказывается очень удобным.

После набора текста статьи, она отправляется в специальную программу, которая проверяет все на наличие синтаксических ошибок (такая программа называется «линтер», она смотрит, на месте ли все скобки, подчеркивания и всё такое – всё в соответствии с правилами LaTeX). Если ошибки обнаружены, они отправляются в Aider, который их исправляет и возвращает исправленную версию на повторную проверку.Шаблон статьи авторы тоже дают заранее. Там стандартные разделы: введение, обзор литературы, методы и так далее. Для каждого раздела описано, что там должно быть. На этом этапе есть риск получить галлюцинации (ИИ выдумает факты, которых не было). Чтобы этот риск сократить, авторы требуют каждый раздел перепроверять (это называется «саморефлексия», и это в целом хорошая техника для работы с языковыми моделями).Для обзора литературы и формирования списка источников агент обращается к упомянутому ранее Semantic Scholar (не более 20 раз). Когда статья готова целиком, агент должен перечитать ее еще раз, чтобы убрать лишнюю информацию и убедиться в том, что цель работы явным образом проходит через всю статью.

Самое интересное (на мой взгляд, во всяком случае) – это проверка статьи. В человеческом мире статья публикуется в журнале или отправляется (без указания данных автора) на обзор специалистам из области, в которой эта статья написана. Эти специалисты или все ученые, которые читают журнал (если статья опубликована в качестве препринта) внимательно изучают текст и оставляют свои отзывы (пишут о найденных ошибках, пробуют воспроизвести эксперименты и так далее). Это устойчивый механизм, который обеспечивает качество научных публикаций. А как этого достичь с помощью ИИ-агентов?

Авторы создали агента «Рецензент» на базе модели GPT-4o (то есть, строго говоря, ИИ-ученый – это мультиагентная система, поскольку проверку осуществляет отдельный агент). Ему дали инструкцию, которой пользуются рецензенты конференции NeurIPS (это конференция для специалистов в области машинного обучения и вычислительной нейробиологии). ИИ-рецензент читает написанную на предыдущем этапе статью с помощью специального инструмента (библиотеки для чтения файлов) и, пользуясь инструкцией, принимает решение о том, принять эту статью или вернуть на доработку.
Чтобы убедиться в том, что ИИ-рецензент работает как положено, его сначала проверили на наборе статей, для которых уже были готовы человеческие отзывы. Как и ранее, агента заставили перепроверить собственные ответы несколько раз. Получилось в целом неплохо, ИИ-рецензент возвращает на доработку меньше по-настоящему хороших статей, чем рецензенты-люди. Однако он же и пропускает больше статей низкого качества (то есть, рецензенты-люди более придирчивы и внимательны).
Все промпты, которые были использованы в работе, полностью приведены в статье, в приложении.

Пример

Наконец, рассмотрим один из примеров статьи, сгенерированной ИИ-ученым. Тема статьи – «Adaptive Dual-Scale Denoising for Dynamic Feature Balancing in Low-Dimensional Diffusion Models» («Адаптивное шумоподавление на двух шкалах для динамической балансировки признаков в диффузионных моделях малого размера»). Не будем сейчас вдаваться в подробности, пост про диффузионные модели у меня в плане стоит. Если коротко, речь идет о том, чтобы улучшить качество работы этих моделей, учитывая как глобальные структуры в данных, так и разные мелкие нюансы. Применительно к изображению, например, глобальные структуры – это композиция и формы объектов; нюансы – текстура объектов, блики, мелкие черты.
Диффузионные модели и их улучшение – это актуальная тема исследования, так что идея была сгенерирована хорошо. Обратите внимание на то, что ИИ-ученый четко определил границы исследования. Это иногда сложно делать и людям, так что плюсик ему в карму.
В качестве экспериментов ИИ-ученый предложил ввести весовые коэффициенты для балансировки вклада глобальных структур и нюансов, затем обучить на одинаковых наборах данных улучшенную модель и предыдущую версию и сравнить результаты с помощью специальных метрик.
Код я здесь приводить не буду, можете обратиться к репозиторию по ссылке выше или к статье, там все есть.
В результате получился текст на 11 страниц с таблицами и графиками (этот текст также есть целиком в приложении к статье).

<i>(Предпросмотр полученного текста)</i>
(Предпросмотр полученного текста)

Авторы отмечают, что ИИ-ученый хорошо справился с

  • отражением в тексте изменений, которые вносились в код по мере проведения экспериментов;
  • описанием самих экспериментов и использованных наборов данных;
  • получением видимого результата (улучшенная диффузионная модель и в самом деле показала превосходство над предшествующей версией);
  • созданием графиков (здесь он сделал даже больше, чем ему предложили в заранее составленном шаблоне);
  • написанием раздела об исследованиях, которые необходимо провести в будущем на ту же тему.

Были и ошибки, разумеется (авторы их назвали «патологиями»):

  • небольшая ошибка при работе с масштабированием диффузионной сети;
  • галлюцинации относительно некоторых деталей эксперимента (в частности, версии использованных библиотек и тип процессора, на котором проводилось обучение модели);
  • чрезмерно позитивная интерпретация результатов (кое-где ИИ-ученый описал негативный результат как позитивный);
  • кое-где была добавлена лишняя информация (не ложная, но избыточная) и кое-где недоставало ссылок на литературу (в целом список литературы получился из девяти позиций, что для научной статьи, мягко говоря, маловато).

ИИ-рецензент в итоге статью не принял, потому что посчитал теоретическое обоснование исследования недостаточно полным, некоторые разделы недостаточно детально описанными, а эксперименты в целом недостаточными. Вопросы задал по каждой своей претензии – постарался, в общем.
Авторы отмечают, что в целом эксперимент вышел интересный. Конечно, агенты справились не так хорошо, как справился бы человек (и ученый, и рецензент), однако это шаг в нужном направлении.
Я не буду здесь вдаваться в детали прочих экспериментов, скажу только, что из всех моделей, которые авторы сравнивали между собой, Claude Sonnet 3.5 показал наилучшие результаты (и, конечно, он не доступен в бесплатной версии из-за высокого спроса). Про эту модель пост был у меня в телеграме, заглядывайте.

Этические соображения

Хотя результаты исследования и выглядят многообещающе, у ИИ-ученого есть целый ряд проблем. Это нормально, в самом начале пути у любой технологии много проблем, по мере развития они постепенно решаются. Но они решаются только если о них говорить, чем мы и займемся (цитируя авторов статьи).
Во-первых, ИИ-ученый делает ошибки, которые может быть сложно отловить неподготовленному читателю. ИИ-рецензент частично решает проблему, однако авторы указывают, что сами нашли недочеты, которые ИИ рецензент не заметил. Мораль – что бы вы ни писали с использованием ИИ, перечитывайте. Внимательно.
Во-вторых, как было указано ранее, ИИ-ученый иногда делает неправильные выводы из правильных расчетов. Это случается и с людьми, поэтому помимо перечитывания надо ещё и всё пересчитывать. Накладно, конечно, но необходимо.
Ссылки на источники тоже надо перепроверять, чтобы убедиться, что агент ничего не выдумал и не напутал. Это тоже относится не только к написанию научных статей.
Перепроверить готовый текст все еще будет быстрее, чем написать свой с нуля, так что инструмент сам по себе полезный. Однако относиться к нему как к волшебной палочке не нужно (ну это вы и сами поняли уже).
С запуском кода стоит быть осторожнее. Вероятнее всего, ничего глобально ужасного ИИ-агент не напишет, но он может сделать ошибки, которые приведут к перегрузке оперативной памяти или другим проблемам. По возможности лучше запускать код в «песочнице» – это такая специально созданная среда, которая изолирована от вашего компьютера и не имеет доступа в Интернет. В подобных средах работают, например, специалисты по безопасности, когда нужно проверить потенциально вредоносный файл и ничего из него не подхватить.
Разумеется, если ИИ-ученый попадет в нехорошие руки, а рецензенты научных журналов будут недостаточно внимательны, мы можем столкнуться с валом некачественных «научных» публикаций, которые влияют на нашу жизнь, попадая в новостные сводки. Авторы видят решение проблемы в том, чтобы уделить больше внимания совершенствованию ИИ-рецензента.
Совсем запретить использовать ИИ при написании научных статей – так себе выход. Добросовестные ученые перестанут, а всякие плохие ребята – нет. И поди их поймай. Так что единственный хороший выход – повышать собственную осведомленность (чем вы сейчас и заняты) и вкладываться в развитие инструментов, которые помогут вовремя поймать жуликов за руку.

Заключение

ИИ-ученый – это очередной эксперимент, который призван прощупать границы возможностей современного ИИ. Результаты получились интересными, хоть и не прям сногсшибательными.
Если будет время и желание, рекомендую вам изучить статью самостоятельно. Там много других примеров статей, написанных с использованием ИИ-ученого, а также промптов, которые авторы использовали, чтобы получить результат.

11
1 комментарий

ИИ-ученый – это очередной эксперимент, который призван прощупать границы возможностей современного ИИ. - Вот где где, а в науке я как раз жду именно прорыва со стороны ИИ. Пока конечно эта технология не так развита, чтобы делать какие то серьезные открытия, но конечно многообещающая штука.

1