Как выбрать LLM и не сойти с ума от бенчмарков?
Каждую неделю выходит новая LLM, и каждая вторая — якобы лучше предыдущей. Заходишь выбрать модель под свою задачу, а там — стена из цифр и аббревиатур: MMLU, ARC, HellaSwag, TruthfulQA... Это всё бенчмарки, по которым и определяется показатель "а у нас стало лучше"!
Давайте сразу к главному. Слепо брать модель №1 из общего топа — частая ловушка. Да, скорее всего, она справится с вашей задачей. Но я постоянно замечаю, что разница в стоимости между таким «чемпионом» и моделью попроще, но идеально подходящей под задачу, может отличаться в разы, а то и на порядок.
Вся фишка в том, что разные бенчмарки меряют разное:
• Один — широкую эрудицию и логику (MMLU).
• Другой — умение писать код (HumanEval).
• Третий — общая адекватность на русском языке (MERA).
Общий счёт в лидерборде не говорит ничего о производительности на вашем кейсе.
Мой подход до смешного простой, и он экономит кучу времени и денег:
1. Определи задачу. Что конкретно нужно? Суммаризировать тексты на русском? Генерировать SQL-запросы? Отвечать на вопросы клиентов?
2. Найди релевантный лидерборд. Для большинства задач на русском сейчас лучший ориентир — MERA (mera.a-ai.ru), там кстати очень подробно описан каждый бенчмарк и для каких задач он в основном служит. Например для кода — смотрите на HumanEval.
3. Возьми топ 3-5 кандидатов. Не одного! Именно нескольких. Лидеры часто идут ноздря в ноздрю.
4. Устрой им тест-драйв. Дай всем моделям 5-10 твоих реальных кейсов. Это и есть твой личный, самый важный бенчмарк. Часто бывает, что модель №3 из списка рвёт «лидера» именно на твоих данных, а стоит в несколько раз дешевле.
Не ищите «лучшую» модель. Ищите самую эффективную по соотношению цена/качество для вашей задачи. Бенчмарки нужны лишь для того, чтобы составить шорт-лист и не тестировать всё подряд.
Какой самый неожиданный провал у «топовой» модели был у вас? Делитесь в комментах.
Кратко пишу про нейросети, автоматизацию и то, как адаптироваться ко всему этому ¯\_(ツ)_/¯