Если вы маркетолог, бизнес-аналитик, руководитель проектов или просто человек, который интересуется экономикой и бизнесом, вы знаете, что такое бенчмаркинг. На всякий случай, дадим определение: бенчмаркинг – это метод анализа, основанный на сравнении объектов с заранее выбранным эталоном. Он позволяет сравнить несколько товаров и выделить характеристики, которые делают одни товары более успешными, чем другие. Например, можно сравнить несколько приложений для планирования работ. У всех приложений есть интерфейс для составления списка задач, назначения исполнителей, сортировки по приоритетам и так далее. В ходе бенчмаркинга мы сравниваем несколько вариантов и смотрим, какое приложение удобнее и понятнее, в каком больше функций и выгоднее цена. По результатам анализа можно либо приобрести наилучшее приложение, либо понять, что для нас важно и какие нам нужны функции, и разработать собственное.
С ИИ все примерно так же. Мы берем несколько моделей из одной группы (например, несколько языковых моделей или несколько моделей, которые работают с изображениями) и сравниваем их между собой, чтобы выбрать лучшие.
В качестве эталона выступает некоторая «базовая» модель. Как правило, это хорошо известная и ранее протестированная модель, с которой сравнивают новые. Например, сделали GPT-4, сравниваем с GPT-3.5 – более ранней версией. Или выпустили Llama 3.1, сравниваем с GPT-4 – ближайшим конкурентом с тем же набором способностей.
Сравнение происходит в процессе решения разных задач. Для языковых моделей, например, это могут быть ответы на вопросы, классификация текста, предсказание следующего предложения за данным, написание кода для решения конкретной задачи и так далее.