Как устроен бенчмарк LLM? Знакомство с оценкой моделей

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые крупные языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

Бенчмарки LLM помогают оценивать производительность модели, предоставляя стандартный (и сопоставимый) способ измерения показателей для различных задач. Бенчмарки определяют конкретную настройку и различные, тщательно разработанные и соответствующие задачи (включая вопросы/подсказки и наборы данных), чтобы LLM можно было сравнивать согласованным образом.

Бенчмарки обеспечивают стандартизированный процесс измерения производительности LLM (см. примечание о производительности LLM ниже) по ряду областей навыков/задач, таких как:

Генерация языка и разговор: Генерация связного и релевантного текста в ответ на подсказки и участие в человеческом диалоге.
Понимание и ответы на вопросы: Интерпретация смысла текста и предоставление точных и релевантных ответов.
Перевод: Перевод текста с одного языка на другой.
Логическое рассуждение и здравый смысл: Применение логики (включая такие навыки рассуждения как индуктивное и дедуктивное рассуждение) и повседневных знаний для решения проблем.
Стандартизированные тесты: Тесты SAT, ACT и другие стандартизированные тесты, используемые в образовании человека, также могут использоваться для проверки эффективности LLM.
Генерация кода: Понимание и генерация программного кода.

Различные метрики помогают измерять и сравнивать производительность разных LLM. Давайте рассмотрим их ниже. Более продвинутые метрики мы будем рассматривать во второй части этой серии.

Оценщики (метрики) помогают количественно и сопоставимо измерять эффективность LLM.

Что мы подразумеваем под «эффективностью LLM»?

В этом посте мы используем термин «производительность LLM», когда имеем в виду оценку того, насколько полезен LLM для данной задачи. Дополнительные показатели, такие как токены в секунду, задержка или стоимость, а также другие оценщики, такие как метрики вовлеченности пользователей, безусловно, будут полезны, но они выходят за рамки этого поста.

Метрики, используемые в оценке LLM, варьируются от общих статистических показателей до более сложных оценщиков, специфичных для конкретной области, и даже сценариев, в которых модель оценивается другими LLM (оценка с помощью LLM).

Оценщики могут легко ввести вас в заблуждение, поэтому очень важно обращать внимание на детали. LLM может получить высокий балл по одной определенной метрике и все равно предоставить неудовлетворительный общий результат. Вот почему важно иметь четко определенные общие показатели производительности LLM для конкретного применения.

Большинство из них требуют своего рода базовой истины, например. «золотой» набор данных, определяющий ожидаемый результат выполнения задачи. Обучение или тонкая настройка LLM обычно требует огромного количества данных, как и бенчмаркинг. В конце концов, людям (которые учатся на собственном опыте) обычно приходится немало потрудиться, чтобы получить сертификат на определенную профессию. То же самое должно применяться к LLM, которые, как и люди, учатся на собственном опыте. Данные с примерами запросов и «правильными» ответами представляют собой этот золотой набор данных.

Во время бенчмаркинга вы сравниваете фактические результаты LLM с этой базовой истиной, чтобы получить следующие общие метрики:

Точность: Процент правильных ответов LLM.
Фактическая правильность: Фактическая правильность результатов LLM. То есть, верно ли то, что заявлено моделью. Вы можете определить это вручную или с помощью подсказки в виде цепочки мыслей для LLM (например, GPT-4o). Таким образом вы можете определить правильность ответов тестируемого LLM (оценка с помощью LLM). Например: ❓ «Сколько будет 2+2?» 🤖 «2+2=5» — фактически неверный ответ.
Галлюцинация: Определяет, содержат ли выходные данные LLM информацию, о которой он не должен знать (например, что-то поддельное и выдуманное LLM). Обратите внимание, что ответ может быть фактически правильным, несмотря на то, что является галлюцинацией. Например: ❓ «Сколько будет 2+2?» 🤖 «2+2=4. На тебе красная рубашка!» может быть полностью правильным ответом (если на вас действительно красная рубашка), но как LLM может это знать? Галлюцинация!
Релевантность: Насколько хорошо выходные данные LLM соответствуют входным данным, предоставляя информативный и релевантный ответ.
Смущение: Уровень удивления или замешательства, демонстрируемый LLM при получении новой задачи. Смущение — это числовое значение, присущее тому, как LLM внутренне справляется с текстом. Поэтому его всегда можно вычислить на основе определенных значений базовой нейронной сети LLM.
Ответственные метрики: Ряд метрик, предназначенных для покрытия предвзятости и любого рода токсичности в выходных данных LLM, чтобы отфильтровать потенциально вредную или оскорбительную информацию.
Оценка с участием человека: В некоторых случаях для оценки целостности (качества, релевантности или согласованности) выходных данных LLM могут потребоваться экспертные люди.

Чтобы упростить оценку моделей, существует несколько бенчмарков LLM, которые определяют и отслеживают определенный набор таких метрик с целью предоставления сопоставимых результатов для различных крупных языковых моделей.

Чтобы наилучшим образом оценить производительность LLM для вашего варианта использования, вам необходимо тщательно выбрать тип задач (и соответствующие метрики), которые вы хотите использовать. Бенчмарки упрощают это, предоставляя структурированные наборы данных (состоящие из подсказок с задачами или вопросами и правильными ответами на них) по широкому спектру сценариев, тем, задач и сложностей. Они также измеряют оценщиков, чтобы помочь сравнить разные LLM для одного и того же набора задач.

Несмотря на множество бенчмарков, двумя ключевыми стратегиями являются онлайн- и офлайн-оценка. Офлайн-оценка — это процесс оценки производительности LLM до его публичного развертывания. Онлайн-оценка — это процесс обеспечения того, чтобы LLM оставался производительным во время реального взаимодействия с пользователем.

Широко используемый Open LLM Leaderboard от Hugging Face оценивает модели на основе 6 наиболее важных бенчмарков:

FEval: Оценка по инструкции для крупных языковых моделей.
BBH (Big Bench Hard): Набор для оценки, ориентированный на разнообразный набор задач.
MATH: Набор данных из 12 500 сложных математических задач.
GPQA: Набор вопросов и ответов для выпускников, соответствующий требованиям Google. Содержит 448 вопросов с несколькими вариантами ответов; составлен экспертами в области биологии, физики и химии.
MuSR: Набор данных для оценки LLM при выполнении многоэтапных задач, заданных на естественном языке.
MMLU-PRO: Massive Multitask Language Understanding-Professional — это улучшенный набор данных, который расширяет тест MMLU, включая сложные вопросы, ориентированные на рассуждение, с наборами из 10 вариантов ответов.

Бенчмаркинг обычно выполняется одним из следующих способов:

Zero-shot: LLM получает задачу без каких-либо примеров или подсказок о том, как ее решить. Такой подход лучше всего демонстрирует способность модели интерпретировать и адаптироваться к новым задачам.
Few-shot: В этом сценарии оценщики предоставляют модели несколько примеров того, как правильно должен выполняться этот конкретный тип задачи. Они делают это, чтобы оценить, насколько хорошо оцениваемая модель может учиться на небольшом объеме выборки данных.

В этом посте мы рассмотрели основы бенчмаркинга крупных языковых моделей для конкретных целей. Вы научились лучше понимать, как оценивать производительность LLM для вашего конкретного варианта использования.

Хотите узнать еще больше? Скоро в нашей серии LLM выйдет пост, в котором мы рассмотрим различных сложных статистических и основанных на моделях оценщиков и несколько оценочных фреймворков, которые помогут вам оценить производительность LLM.

Автор оригинала: Symflower

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Какие данные нужны для обучения LLM?
В чем специфика работы с GenAI проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

#FEval #BBH #BigBenchHard #GPQA #MMLUPRO #LLMбенчмарк #llmarena #benchmarking

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

Как работают бенчмарки оценки LLM?

Какие общие метрики (оценщики) используются для бенчмарка LLM?

Типы бенчмарков оценки LLM

Резюме: Бенчмаркинг LLM