LLM бенчмарк "Испытание Дали"

LLM бенчмарк "Испытание Дали"

Помните анекдот?

— Что вы умеете лучше всего? — Я очень быстро считаю. — Сколько будет 758×652÷9? — 22! — Но это же неправильно! — Зато очень быстро.

TL;DR: Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM "Испытание Дали" по трем параметрам: качество, скорость и стоимость. Этот бенчмарк позволил мне найти оптимальную LLM для встраивания в продукты моей компании Флаг Софт. Возможно, вас тоже заинтересуют его результаты.

Пет-проект

Меня зовут Михаил Радионов, я основатель Флаг Софт — агентства разработки AI-сервисов с 15-летней историей. Пет-проект, из которого вырос бенчмарк, называется AI Quiz. Я создал его как развлечение для гостей сперва на свой день рождения, затем использовал для корпоратива. Оба раза участники остались довольны. А может, и нет, главное, что мне понравилось.

Суть проекта — игра, где каждый должен набрать больше всех очков. Очки набираются в креативных заданиях. В основном, задания делятся на два типа: в одних нужно писать, в других рисовать. Оценивается, в основном, юмор. Участники оценивают друг друга, раздавая баллы. А где тут AI?

В каждом задании есть электронный судья (LLM). Он тоже дает баллы участникам, причем может дать довольно много. Нюанс в том, что для каждого задания LLM надевает разные шляпы: то он Сальвадор Дали, то Альберт Эйнштейн, то Курт Кобейн. И чем лучше участники используют знания об этом персонаже, тем выше их оценивает LLM-судья.

Бенчмарк

В одном из заданий участники оказались умнее, чем судья-LLM. LLM я брал простую, кажется, gpt-4.1-nano. Дешевая и быстрая. И глуповатая. В общем, LLM не справилась.

Задание

Нарисуйте комментарий к "всратому" стоковому фото.
Судья задания: Сальвадор Дали
"Всратое" стоковое фото:

LLM бенчмарк "Испытание Дали"

Ответы участников

  1. "Предчувствие гражданской войны"
  2. "Мастурбатор вышел из-под контроля, став великим"
  3. "Сальвадор, Дьяконова и Мария Анна"
  4. "Галатея, я тебя на сферы разберу, если не слезешь с него!"
  5. "В магазине икеа: «извините, мы закрываемся через 5 минут»"
  6. "Я просто хотел нарисовать Мону Лизу"
  7. "Слезьте с моего сюрреализма и утекайте отсюда!"

Что за низкосортный бред, спросите вы. Если вы не знаете биографию Дали так, как знают ее мои гости. Ниже расшифровка:

  1. Ответ участника: Предчувствие гражданской войны Отсылка: Намек на картину “Предчувствие гражданской войны” — 1936 год
  2. Ответ участника: Мастурбатор вышел из-под контроля, став великим Отсылка: Намек на “Великий мастурбатор” — 1929 год
  3. Ответ участника: Сальвадор, Дьяконова и Мария Анна Отсылка: Намек на пассию Сальвадора Галу (настоящее имя — Елена Дьяконова) и его сестру Анну Марию
  4. Ответ участника: Галатея, я тебя на сферы разберу, если не слезешь с него! Отсылка: Намек на “Галатею сфер” — 1952 год
  5. Ответ участника: В магазине икеа: «извините, мы закрываемся через 5 минут» Отсылка: Просто хороший коммент без отсылок :)
  6. Ответ участника: Я просто хотел нарисовать Мону Лизу Отсылка: Тончайший намек на “Автопортрет в образе Моны Лизы” — 1954 год
  7. Ответ участника: Слезьте с моего сюрреализма и утекайте отсюда! Отсылка: Открытое упоминание стиля Сальвадора — сюрреализма, также намек на плавящиеся предметы, вдохновлявшие мастера. Отсылки к картинам нет, но добавлю “Постоянство времени” 1931 года для вашего удовольствия

И что вы думаете? LLM в роли Дали внезапно дала низкие оценки этим потрясающим комментариям! Я начал разбираться.

Рождение бенчмарка

Первая мысль — проблема во мне. А точнее в моем системном промпте. Какое-то время я провел, продумывая структуру размышлений и few shots. Тогда я узнал, зачем нужны обучающая и тестовая выборка, почему они не должны пересекаться. В итоге модель стала отвечать верно на простые вопросы, но не каждый раз.

Признаюсь, я вообще ничего не знал об LLM. На тот момент рекламные лозунги OpenAI еще звучали в моей голове, хотя действия происходили в 2026 году. Я думал, что Chat GPT 4 (напомню, я использовал gpt-4.1-nano) может все, кроме создания лекарства от рака. Я бы наверное так и боролся с промптом и своими комплексами, если бы не нестабильность модели. Это натолкнуло меня на мысль, что модель угадывает.

В процессе отладки я догадался писать в логи а анализировать ризонинг модели (пошаговое рассуждение). Это как отладка кода в дебаггере. Видно, как развивается мысль от начала до конца. Увлекательная штука.

Температура (мера креативности LLM) была выставлена на 0 во всех тестах.

В общем, я наконец допер, что надо попробовать другую модель. Например GPT-5.4. Результаты изменились, они стали лучше. Изменилось время запроса и цена. Затем я попробовал Claude, Gemini и понеслась. Я как будто попал в магазин игрушек! Вот итоговый список моих игрушек (сейчас апрель 2026 года).

Модели-участники бенчмарка

  1. claude-haiku-4-5
  2. claude-opus-4-7
  3. claude-sonnet-4-5
  4. claude-sonnet-4-6
  5. deepseek-chat V3.2
  6. deepseek-reasoner V3.2
  7. gemini-2.5-flash
  8. gemini-2.5-pro
  9. gemini-3-flash-preview
  10. gemini-3.1-flash-lite-preview
  11. gemini-3.1-pro-preview
  12. GigaChat-2
  13. GigaChat-2-Max
  14. GigaChat-2-Pro
  15. gpt-4.1-nano
  16. gpt-4o-mini
  17. gpt-5
  18. gpt-5-mini
  19. gpt-5.4
  20. gpt-5.4-mini
  21. gpt-5.4-nano
  22. grok-4-1-fast-non-reasoning
  23. grok-4-1-fast-reasoning
  24. grok-4.20-0309-non-reasoning
  25. grok-4.20-0309-reasoning
  26. yandexgpt-5-lite
  27. yandexgpt-5-pro
  28. yandexgpt-5.1

В процессе я заметил, что у всех моделей есть небольшой разброс качества между попытками. Поэтому я записал по 5 запусков для каждой модели. В итоге у меня получилось около тысячи ответов полученные за 140 вызовов (28x5).

Нужно было их разметить по какой-то балльной системе или просто: правильно / неправильно. Это можно сделать в автоматическом режиме, с помощью LLM-as-a-judge подхода, когда какая-то LLM начинает судить ответы других LLM.

Но я сразу понял, что эта LLM-as-a-judge тоже может ошибаться и ее придется проверять другой LLM. Я не хотел усложнять себе жизнь и тупо проверил все ответы вручную за несколько часов (два дня) 😀

Забавные примеры ответов моделей

  • Мона Лиза — я добавил ее как вариант-ловушку, картину другого художника, но вдруг Gemini в облике Дали сказала "Я работал с образом Моны Лизы". Я уже хотел поставить "неправильно", но рука зависла над клавиатурой. Хм. А ведь эта модель в остальных заданиях хорошо ответила, подумал я. В итоге я решил проверить, оказалось — Дали рисовал себя в образе Моны Лизы. AI оказался умнее меня!
  • Некоторые модели выдавали верные варианты случайно. Например, хвалили ответ с близкими Дали, называя Анну Марию его матерью. Но есть нюанс, она ему сестра, а не мать. Хорошая попытка!
  • Некоторые модели хвалили скульптуру Галатея, хотя это картина. Почему? Кто бы знал.
  • А иногда модель не указывала прямо название "Галатея сфер", но упомянала что-то про ядерную физику. Так я узнал об атомном мистицизме Дали. Этот термин мимо названия картины сразу направляет нас к самой ее сути. Изящно и опять AI оказался умнее меня.
  • Grok один раз признал Галатею, но решил, что она написана в 1973 году => ошибка
  • Grok выдумал Лию Марию Анну
  • Gigachat заметно экономит токены на ответ. Видимо, понимает свой оверпрайснутый ценник 😀

Итоги

Сортировка по стоимости

LLM бенчмарк "Испытание Дали"

При оценке важно упомянуть, что модели потратили неодинаковое количество токенов на запрос. Я могу это объяснить так:

  1. Наличие или отсутствие фичи json output
  2. У моделей разные токенизаторы. Они по разному разбивают русские слова на токены.
  3. И ответы, разумеется, тоже разные по длине. Некоторые модели более лаконичны, чем другие

Сортировка по времени ответа

LLM бенчмарк "Испытание Дали"

Сортировка по качеству

LLM бенчмарк "Испытание Дали"

Мои выводы

  1. grok-4-1-fast-non-reasoning хорош для быстрых задач: дешевый, неглупый, быстрый
  2. gemini-2.5-pro — самая умная модель в гуманитарной области
  3. YandexGPT и GigaChat — ну по крайней мере они быстрые.

Анекдот в начале статьи, кстати, относился к отечественным LLM YandexGPT и GigaChat. Я бы его перефразировал так:— Что вы умеете лучше всего?— Быстро отвечать на вопросы пользователей.— Но вы отвечаете неправильно. И дорого!— Зато быстро!! 😀

Благодаря этому небольшому тесту моя компания имеет именно тот кругозор в выборе LLM, который ей нужен. Я доволен. Делайте свои выводы, выбирайте LLM для себя и обязательно подписывайтесь на канал моей компании Флаг. Всегда пишу про интересные вещи.

А если у вас есть идея сервиса с AI под капотом, то мы готовы сделать для вас надежный продукт, используя наш 15-летний опыт разработки сервисов. Оставьте заявку на hello@flagsoft.ru

Начать дискуссию