Как оценивают способности нейросетей

Периодически в постах про разные модели и подходы к обучению ИИ я пишу про то, что кто-то показал хороший результат в ответах на вопросы или что какие-то модели сравнили, и оказалось, что одна лучше. Сегодня хочу рассказать подробнее про то, как проводятся оценки и как модели сравнивают между собой.
Для этого возьмем один конкретный пример – задачу, в которой моделям нужно отвечать на вопросы.

Если вы маркетолог, бизнес-аналитик, руководитель проектов или просто человек, который интересуется экономикой и бизнесом, вы знаете, что такое бенчмаркинг. На всякий случай, дадим определение: бенчмаркинг – это метод анализа, основанный на сравнении объектов с заранее выбранным эталоном. Он позволяет сравнить несколько товаров и выделить характеристики, которые делают одни товары более успешными, чем другие. Например, можно сравнить несколько приложений для планирования работ. У всех приложений есть интерфейс для составления списка задач, назначения исполнителей, сортировки по приоритетам и так далее. В ходе бенчмаркинга мы сравниваем несколько вариантов и смотрим, какое приложение удобнее и понятнее, в каком больше функций и выгоднее цена. По результатам анализа можно либо приобрести наилучшее приложение, либо понять, что для нас важно и какие нам нужны функции, и разработать собственное.
С ИИ все примерно так же. Мы берем несколько моделей из одной группы (например, несколько языковых моделей или несколько моделей, которые работают с изображениями) и сравниваем их между собой, чтобы выбрать лучшие.
В качестве эталона выступает некоторая «базовая» модель. Как правило, это хорошо известная и ранее протестированная модель, с которой сравнивают новые. Например, сделали GPT-4, сравниваем с GPT-3.5 – более ранней версией. Или выпустили Llama 3.1, сравниваем с GPT-4 – ближайшим конкурентом с тем же набором способностей.
Сравнение происходит в процессе решения разных задач. Для языковых моделей, например, это могут быть ответы на вопросы, классификация текста, предсказание следующего предложения за данным, написание кода для решения конкретной задачи и так далее.

Для достоверной оценки модели дают множество однотипных задач, потом проверяют ответы и высчитывают метрику, которая отражает, как хорошо модель справилась. Самый простой вариант – посчитать долю правильных ответов. В задачах, где нужно сгенерировать текст, метрики более сложные, но мы сейчас не будем в это углубляться. Главное, что у нас есть набор задач и правильных ответов к ним.
Подготовка таких наборов – это отдельная очень большая работа. Например, если мы хотим тестировать способность модели отвечать на вопросы, надо собрать очень много вопросов и дать к ним очень много правильных ответов. Зачастую это делается в частично автоматизированном режиме. Например, набор вопросов и ответов можно сгенерировать с использованием какой-нибудь доступной модели, а потом вручную перепроверить. Или собрать такие вопросы-ответы из открытых источников, но потом все равно перепроверить (как правило, сейчас никто не сидит и не составляет наборы данных вручную от и до).
Таким образом, когда речь идет о сравнении и оценке моделей, имеется в виду набор данных, подготовленный под конкретную задачу, которую моделям-конкурентам предстоит решить. Это все называется «бенчмарк» (benchmark). Он может включать в себя и метрику для оценки, если авторы бенчмарка ее сами разработали (например, если задача нетипичная и уже существующие метрики плохо отражают качество ее решения).

Итак, наш герой сегодня – бенчмарк GPQA, который представлен в статье «GPQA: A Graduate-Level Google-Proof Q&A Benchmark» («GPQA: бенчмарк для ответов на вопросы уровня выпускника вуза с использованием поиска в открытых источниках»).
Этот бенчмарк используется для оценки способностей к рассуждению. Он состоит из 448 вопросов с несколькими вариантами ответов. Все вопросы были написаны вручную специалистами в области биологии, физики и химии, которые либо имеют степень кандидата наук (PhD), либо пишут (на момент участия в проекте) диссертацию для соискания этой степени.
Бенчмарков для ответов на вопросы с выбором вариантов вообще немало, но этот отличается сложностью, так что образованные неспециалисты с доступом в Интернет набрали только 34% правильных ответов, потратив в среднем 37 минут на каждый вопрос. Зачем такая сложность? Затем, чтобы убедиться, что ИИ справляется с возложенными на него задачами. Если мы хотим использовать нейросети для работы, например, чтобы разобраться в сложной теме, то мы должны быть уверены в его возможностях и в том, что он не генерирует ошибочные ответы. До определенного момента мы можем проверить точность, обратившись к поиску в Интернете. Однако, если вопрос действительно сложный и находится за пределами нашей компетенции, поиск не поможет. Именно поэтому надо иметь под рукой хороший качественный тест.
Процесс создания набора данных включал в себя четыре этапа:

написание вопросов с вариантами ответа, верным вариантом ответа и объяснением выбора;
экспертная проверка с объяснением согласия или несогласия с автором вопроса;
корректировка вопроса, ответов и объяснения, если эксперт прислал замечания на втором этапе;
повторная проверка уже другой группой экспертов.

Затем вопросы дали неэкспертам с доступом в Интернет (но без доступа к ИИ-помощникам), чтобы замерить их результаты и оценить уровень сложности вопросов. «Неэксперты» – это не эксперты в области, по которой им задали вопросы. Они при этом могли быть кандидатами наук в своей области и писать вопросы по ней. Таким образом, эксперты в области физики могли писать и проверять вопросы по физике и отвечать на вопросы по биологии в роли неэкспертов. Эксперты по биологии, соответственно, были неэкспертами в физике, но только там, где область их компетенции не пересекается с областью компетенции, требуемой для написания вопросов. Например, эксперты в области органической химии не могли быть неэкспертами в области биологии.
Что важно, авторы добивались полного согласия экспертов по каждому вопросу: если после первой валидации в вопросе нашли ошибку, но составитель вопроса не согласен с исправлениями, авторы обращались к проверяющему эксперту снова, чтобы уточнить его мнение. Те вопросы, по которым все три эксперта (составитель вопроса и два проверяющих) так и не согласились, были исключены и в окончательный набор не попали.
Таким образом, и объяснения ответов тоже были составлены и проверены всеми тремя экспертами.

<i>(Схема процесса, приведенная в статье)</i>

Всего набор данных содержит вопросы из трех областей: биологии, физики и химии.
Помимо основного набора (GPQA) сделали еще один: GPQA Diamond, который состоит из 198 вопросов. Это вопросы, на которые правильно ответили оба эксперта (в процессе первой и второй валидации), но неправильно ответили большинство неэкспертов. То есть, самые сложные вопросы, с одной стороны, и самые грамотно составленные (так что у специалистов в области к ним не было претензий), с другой.
Для иллюстрации, вот пример вопроса из набора данных (изучить весь набор можно на hugginface):

«В параллельной вселенной, где у магнита может быть изолированный Северный или Южный полюс, уравнения Максвелла выглядят иначе [чем в нашей вселенной]. Какие конкретно уравнения отличаются? (In a parallel universe where a magnet can have an isolated North or South pole, Maxwell’s equations look different. But, specifically, which of those equations are different?)»
Это вопрос 4

Правильный ответ: «Те, которые относятся к циркуляции электрических полей и расхождению электрических полей (The ones related to the circulation of the electric field and the divergence of the magnetic field)»

Если вы физик, а мой перевод некорректен, во-первых, простите, во-вторых, буду признательна за исправление. Я, мягко говоря, не эксперт и не ответила бы на этот вопрос правильно. Переводить объяснение я уже не стану, но, думаю, порядок сложности вопросов понятен. Наконец, авторы протестировали несколько доступных на тот момент языковых моделей в двух режимах: без доступа в Интернет и с доступом.

<i>(Сравнительная таблица из статьи)</i>

В таблице выше в первом столбце представлены модели-конкуренты: Llama, GPT-3.5 и GPT-4. Всем моделям давали несколько примеров вопросов с ответами (few-shot), GPT-4 также отвечала с доступом в Интернет (наилучший результат среди моделей, выделен полужирным шрифтом) и без доступа.
Две нижние строки таблицы – это люди-эксперты и люди-неэксперты.
Точность рассчитывали по полному набору вопросов (Extended set, это до удаления из набора вопросов, по которым эксперты так и не договорились), по основному набору (Main set – это GPQA на 448 вопросов) и сокращенному набору с самыми сложными и качественными вопросами (Diamond set).
Как видите, люди-эксперты справляются лучше всех. Обученные модели лучше неэкспертов, однако экспертам уступают весьма существенно.

GPQA – это маленький набор данных, обычно они больше. Однако он интересен тем, что проверяет способность моделей отвечать на действительно сложные вопросы.
Актуальный рейтинг моделей по этому и некоторым другим бенчмаркам можно посмотреть здесь.
На момент написания поста (конец ноября 2024) лучший результат на GPQA показывает Claude 3.5 Sonnet – 59,4% точности. Весьма неплохо, однако, если у вас есть возможность достать где-нибудь человеческого кандидата наук, это все еще наилучший вариант.

Как оценивают способности нейросетей

Краткое теоретическое введение

Наш сегодняшний гость

Заключение