Как выбрать LLM и не сойти с ума от бенчмарков?

Как выбрать LLM и не сойти с ума от бенчмарков?

Каждую неделю выходит новая LLM, и каждая вторая — якобы лучше предыдущей. Заходишь выбрать модель под свою задачу, а там — стена из цифр и аббревиатур: MMLU, ARC, HellaSwag, TruthfulQA... Это всё бенчмарки, по которым и определяется показатель "а у нас стало лучше"!

Давайте сразу к главному. Слепо брать модель №1 из общего топа — частая ловушка. Да, скорее всего, она справится с вашей задачей. Но я постоянно замечаю, что разница в стоимости между таким «чемпионом» и моделью попроще, но идеально подходящей под задачу, может отличаться в разы, а то и на порядок.

Вся фишка в том, что разные бенчмарки меряют разное:

• Один — широкую эрудицию и логику (MMLU).

• Другой — умение писать код (HumanEval).

• Третий — общая адекватность на русском языке (MERA).

Общий счёт в лидерборде не говорит ничего о производительности на вашем кейсе.

Мой подход до смешного простой, и он экономит кучу времени и денег:

1. Определи задачу. Что конкретно нужно? Суммаризировать тексты на русском? Генерировать SQL-запросы? Отвечать на вопросы клиентов?

2. Найди релевантный лидерборд. Для большинства задач на русском сейчас лучший ориентир — MERA (mera.a-ai.ru), там кстати очень подробно описан каждый бенчмарк и для каких задач он в основном служит. Например для кода — смотрите на HumanEval.

3. Возьми топ 3-5 кандидатов. Не одного! Именно нескольких. Лидеры часто идут ноздря в ноздрю.

4. Устрой им тест-драйв. Дай всем моделям 5-10 твоих реальных кейсов. Это и есть твой личный, самый важный бенчмарк. Часто бывает, что модель №3 из списка рвёт «лидера» именно на твоих данных, а стоит в несколько раз дешевле.

Не ищите «лучшую» модель. Ищите самую эффективную по соотношению цена/качество для вашей задачи. Бенчмарки нужны лишь для того, чтобы составить шорт-лист и не тестировать всё подряд.

Какой самый неожиданный провал у «топовой» модели был у вас? Делитесь в комментах.

Кратко пишу про нейросети, автоматизацию и то, как адаптироваться ко всему этому ¯\_(ツ)_/¯

1
Начать дискуссию