Полный гид по бенчмаркам LLM

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

Основные принципы:

Сложность: исчерпывающие бенчмарки для изучения множества областей оценки при помощи динамически обновляемых датасетов.
Спецификация типа систем: бенчмарки, настроенные на работу с конкретными системами, например, Co-pilot, мультимодальными, retrieval-augmented generation (RAG), tool-use и встроенными LLM.
Цель оценки: ориентированные на проверку возможностей бенчмарки оценивают точность выполнения задачи, а ориентированные на риски — потенциальные риски.‍
Спецификация конечных задач: бенчмарки, оценивающие такие задачи, как ответы на вопросы, резюмирование, классификация текстов, перевод, извлечение информации и генерация кода.
Спецификация типов риска: бенчмарки, оценивающие риски LLM, в том числе с точки зрения конфиденциальности, надёжности, справедливости, объясняемости и экоустойчивости.

Бенчмарки LLM используются для оценки точности LLM при помощи стандартизированных задач или промтов. Этот процесс включает в себя выбор задач, генерацию входных промтов и получение ответов моделей с численной оценкой точности моделей. Такая оценка крайне важна при аудитах ИИ, она позволяет объективно измерять параметры LLM, обеспечивая надёжность и этичность моделей с целью поддержания доверия общества и дальнейшего ответственного развития ИИ.

Бенчмарки для LLM можно представить как два спектра: от простых к сложным и от ориентированных на риски до ориентированных на возможности. Таким образом образуются основные четыре сегмента бенчмарков. Сложные бенчмарки охватывают множество различных целей оценки и типов систем, а простые бенчмарки направлены на конкретную цель. Ориентированные на возможности бенчмарки делают упор на оценку точности выполнения задач, а ориентированные на риски оценивают потенциальные риски моделей.

Простые и составные бенчмарки LLM

Многие бенчмарки LLM достаточно прямолинейны, у них есть конкретные цели и методики оценки, но новые разрабатываемые бенчмарки становятся всё более сложными. Простые датасеты обычно делают упор на отдельные конкретные задачи, предоставляя чёткие метрики. Составные же датасеты включают в себя множественные цели и методологии. Эти сложные бенчмарки позволяют одновременно оценивать множество разных граней точности LLM, обеспечивая более целостную картину её возможностей и ограничений. Среди таких сложных бенчмарков можно упомянуть AlpacaEval, MT-bench, HELM (Holistic Evaluation of Language Models) и BIG-Bench Hard (BBH).

Таблица 1. Составные бенчмарки, ориентированные на проверку возможностей

Статические и динамические бенчмарки LLM

Большинство бенчмарков статично, то есть состоит из неизменного набора вопросов или задач, не меняющихся со временем; однако некоторые бенчмарки динамичны, в них постоянно добавляются новые вопросы или задачи. Это помогает поддерживать их релевантность и предотвращает переобучение моделей под конкретный датасет. Примерами таких бенчмарков могут служить LMSYS Chatbot Arena, LiveBench.

Таблица 2. Динамические бенчмарки

Спецификация типов систем

Для учёта всего разнообразия сфер применения LLM бенчмарки часто разрабатываются с расчётом на спецификации типов систем, чтобы обеспечить эффективность и надёжность моделей в реальном использовании. Эти бенчмарки делают упор на оценку того, насколько точно LLM справляется в различных интегрированных системах. Основные типы систем:

Системы Co-pilot: бенчмарки Co-pilot делают упор на то, насколько эффективно LLM может помогать пользователям в реальном времени, повышая продуктивность и эффективность в программных средах. Сюда входит способность модели понимать контекст, предлагать релевантные рекомендации, автоматизировать повторяющиеся задачи и интегрироваться с другими программными инструментами, поддерживающими рабочий процесс пользователей.‍
Cистемы Retrieval-Augmented Generation (RAG): системы RAG сочетают в себе сильные стороны LLM с мощными механизмами извлечения информации. Такие бенчмарки оценивают способность модели извлекать релевантную информацию из внешних баз данных и внедрять эту информацию в целостные и контекстно подходящие ответы. Они особенно важны для областей применения, требующих актуальной или крайне специфичной информации.
‍Системы Tool-Use: бенчмарки Tool-use оценивают способности модели во взаимодействии с внешними инструментами и API. Сюда входит исполнение команд, получение данных и выполнение сложных операций на основании ввода пользователя. Эффективное tool-use позволяет LLM расширять их возможности, обеспечивая более универсальную и практичную работу в различных предметных областях, от анализа данных до разработки ПО.
‍Мультимодальные системы: мультимодальные бенчмарки тестируют способность модели обрабатывать и генерировать выходные данные различного типа, например, текста, изображений и аудио. Это важно для таких областей, как производство медиа, обучение и техподдержка, где требуются интегрированные ответы с учётом контекста в различных типах медиа. Бенчмарки оценивают, насколько хорошо модель понимает и комбинирует информацию разных модальностей для обеспечения целостных и релевантных результатов.
‍Встроенные системы: бенчмарки встроенных систем делают упор на интеграцию LLM в физические системы, например, в роботов или устройства IoT. Такие бенчмарки оценивают способность модели понимать физические пространства и перемещаться в них, взаимодействовать с объектами и выполнять задачи, требующие понимания физического мира. Это крайне важно для применения в робототехнике, домашних смарт-устройствах и других сферах, где LLM должны работать и реагировать в условиях реального мира.

Таблица 3. Бенчмарки спецификаций типов систем

Цели оценки бенчмарками: ориентированные на возможности и ориентированные на риски

Ещё одно важное различие заключается в задачах проведения бенчмарков, это может быть проверка возможностей или рисков. Ориентированные на возможности бенчмарки оценивают эффективность LLM в выполнении конкретных задач, например, переводе текстов или резюмировании. Иными словами, эти бенчмарки важны для измерения функциональных сил модели. Примерами ориентированных на возможности LLM могут быть AlpacaEval, MT-bench, HELM, BIG-Bench Hard (BBH) и LiveBench.

Более того, основные показатели производительности — это подмножество индикаторов ориентированных на возможности бенчмарков, проверяющее эффективность LLM в генерации текста при помощи оценки таких ключевых метрик, как пропускная способность, задержка и затраты на токены.

Таблица 4. Основные индикаторы производительности

Ориентированные на риски бенчмарки делают упор на потенциальные уязвимости больших языковых моделей. Такие риски можно разбить на конкретные категории, например, надёжность, конфиденциальность, безопасность, справедливость, объясняемость, экоустойчивость и другие социальные аспекты. Выявляя и устраняя подобные риски, можно сделать так, чтобы LLM были не только эффективными, но и безопасными и этичными. Примеры составных бенчмарков: TrustLLM, AIRBench, Redteaming Resistance Benchmark.

Таблица 5. Составные бенчмарки, ориентированные на риски

Спецификация конечных задач

Для оценки реальных областей применения больших языковых моделей необходимо понимать весь обширный диапазон их задач. Поэтому для оценки конкретных возможностей LLM можно использовать задачи:

Понимание и ответы на вопросы: эта задача тестирует способность модели понимать и интерпретировать письменный текст. Она оценивает, насколько хорошо модель может отвечать на вопросы в беседах, демонстрируя уровень её понимания и удерживания информации.‍
Резюмирование: эта задача оценивает способность модели сжимать длинные тексты в короткие целостные резюме с сохранением важной информации и смысла. Для оценки качества таких резюме часто применяются инструменты наподобие ROUGE.
‍Классификация текстов: классификация текстов — это присвоение заранее созданных меток или категорий текстовому документу на основании его содержимого. Эта фундаментальная задача NLP применяется во множестве областей, например, в анализе тональности текстов, разметке тем, распознавании спама и так далее.
‍Перевод: эта задача оценивает точность и беглость модели в переводе текстов с одного языка на другой. Для оценки качества чаще всего применяются метрики, сравнивающие переводы модели с переводами живых людей.
‍Извлечение информации: эта задача тестирует способность модели выявлять и извлекать конкретные фрагменты информации из неструктурированного текста. Она включает в себя такие задачи, как распознавание именованных сущностей (named entity recognition, NER) и извлечение взаимосвязей, что очень важно при преобразовании текстовых данных в структурированные форматы.
‍Генерация кода: эта задача оценивает способность модели генерировать блоки кода или завершать код на основании описаний на естественном языке. Она включает в себя понимание языков программирования, синтаксиса и логического решения задач.
‍Математические рассуждения: эта задача измеряет способность модели понимать и решать математические задачи, в том числе концепции арифметики, алгебры, математического анализа и других областей математики. Она оценивает логические рассуждения и математические способности модели.
‍Рассуждения на основе здравого смысла: эта задача оценивает способность модели применять повседневные знания и логические рассуждения для ответов на вопросы или решения задач. Она оценивает понимание моделью мира и её способность создавать разумные инференсы.
‍Общие и предметные знания: эта задача тестирует способности модели в таких конкретных областях, как медицина, юриспруденция, финансы и проектирование. Она оценивает глубину и точность знаний модели в специализированных областях, что очень важно для сфер, требующих информации экспертного уровня.

Таблица 6. Бенчмарки конечных задач

Бенчмарки надёжности

Бенчмарки надёжности применяются для оценки того, насколько хорошо работает LLM в различных условиях, в том числе в условиях шумных или состязательных входных данных. Такие задачи обеспечивают надёжность и согласованность модели в разнообразных и сложных сценариях.

Таблица 7. Бенчмарки оценки надёжности

Бенчмарки безопасности

Бенчмарки безопасности делают упор на устойчивость модели к атакам, например,отравлению данных или эксплойтам, обеспечивая проверку целостности и устойчивости модели.

Таблица 8. Бенчмарки оценки безопасности

Бенчмарки конфиденциальности

Бенчмарки конфиденциальности оценивают способность модели защищать уязвимую информацию, обеспечивая конфиденциальность и безопасность данных и взаимодействий с пользователем.

Таблица 9. Бенчмарки оценки конфиденциальности

Бенчмарки справедливости

Бенчмарки справедливости оценивают ответы модели на непредвзятость и беспристрастность к различным демографическим группам, что позволяет повышать инклюзивность и предотвращать дискриминацию.

Таблица 10. Бенчмарки оценки справедливости

Бенчмарки объясняемости

Бенчмарки объясняемости измеряют, насколько хорошо LLM справляется с генерацией понятных и прозрачных рассуждений относительно результатов своей работы, повышая доверие и наглядность.

Таблица 11. Бенчмарки оценки объясняемости

Бенчмарки экоустойчивости

Оценки экоустойчивости (sustainability) оценивают влияние обучения и развёртывания LLM на окружающую среду, стимулируют к применению экологически безопасных практик и эффективности использования ресурсов.

Таблица 12. Бенчмарки оценки экоустойчивости

Бенчмарки влияния на общество

Бенчмарки влияния на общество охватывают широкий спектр вопросов, в том числе социальные и этические последствия применения LLM; они гарантируют положительное влияние моделей на общество.

Таблица 13. Бенчмарки оценки влияния на общество

Благодаря такому многогранному подходу можно обеспечить тщательную проверку LLM на всевозможные риски, повысить доверие к модели и её надёжность.

Стремительное развитие больших языковых моделей (LLMs) выявил большую потребность в подробных и надёжных бенчмарках. Такие бенчмарки не только помогают в оценке возможностей LLM, но и позволяют обнаруживать потенциальные риски и этические трудности.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале “Роман с данными”

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

Автор оригинала: Xin Guan

#бенчмарки #llm #AlpacaEval #MTBench #llmarena #TrustLLM #TruthfulQA #SycophancyEval #CyberSecEval