LMArena: как работает платформа для сравнения нейросетей

Площадка, на которой можно протестировать платные модели. Иногда — ещё до официального релиза.

LMArena: как работает платформа для сравнения нейросетей

LMArena — это платформа для оценки больших языковых моделей, созданная исследователями из Калифорнийского университета в Беркли. Работает по модели турнира: пользователи тестируют и сравнивают модели, и на основе сравнений формируется рейтинг.

Некоторые ИИ-компании анонимно выкладывают на сайт бета-версии своих моделей. Так поступили, например, разработчики Nano Banana. Модель появилась на сайте за несколько дней до официального выхода.

Как пользоваться LMArena

Сайт: lmarena.ai.

Регистрация: не требуется.

Стоимость: бесплатно, среди нейросетей-«участниц» встречаются и платные модели.

Конфиденциальность: запросы и генерации используют для исследований в области ИИ.

Рабочая область LMArena. Источник: lmarena.ai. 
Рабочая область LMArena. Источник: lmarena.ai. 

В сервисе есть несколько режимов:

  • Battle. «Сражаются» две анонимные нейросети. Пользователю нужно задать промпт и решить, какая модель, на его взгляд, справилась лучше.
  • Side by Side. Соревнуются две заранее известные модели. Пользователю по-прежнему нужно выбрать победителя.
  • Direct Chat. Пользователь общается с одной моделью. Среди доступных нейросети Gemini, Claude, GPT, Grok, DeepSeek, Qwen, Llama и другие. Его тестировать не будем, нет соревновательного элемента.

Тестируем режим Battle

В режиме Battle есть чат, в котором можно задать промпт и сравнить ответы нейросетей. Какие именно нейросети генерируют контент, пользователю неизвестно. По результатам теста нужно решить:

  • Отдать победу одной из моделей.
  • Засчитать ничью.
  • Пометить обе модели как плохие.

Протестируем нейросети для генерации текста. Спросим у чат-ботов, что такое меловой период.

Соперник «А»:

  • Дал определение периоду.
  • Рассказал, почему он так называется.
  • Описал, какой была Земля в ту эпоху.
  • Поделился фактом о том, что именно тогда на планете появились цветы.
  • Дал список самых известных существ того периода.
  • Рассказал о великом вымирании от удара метеорита.
Источник: lmarena.ai.
Источник: lmarena.ai.

Соперник «B»:

  • Дал краткое определение периода.
  • Расписал о динозаврах, флоре, географии и климате той эпохи.
  • Рассказал, почему период называется «меловым».
  • Завершил рассказ кратким описанием массового вымирания.
  • Сопроводил все заголовки эмодзи.
Источник: lmarena.ai. 
Источник: lmarena.ai. 

Победитель — ассистент «А». Его ответы более содержательные и структурированные.

После оценки над блоком с ответами появляются названия моделей. Ассистентом «А» оказалась модель lithiumflow (возможно, новая модель от Google), а ассистентом «B» — Claude Opus 4.1.

В том же режиме Battle пользователи могут генерировать и сравнивать изображения, искать информацию в сети, вайбкодить приложения и сайты.

Промпт: «Уставший динозавр-самурай. У него нет цели, только путь». Источник: lmarena.ai.
Промпт: «Уставший динозавр-самурай. У него нет цели, только путь». Источник: lmarena.ai.

Явных галлюцинаций на изображениях нет. Детальность и глубина резкости картинки справа выше, чем у модели слева. Победитель — модель справа, Hunyuan Image 3.0. Нейросетью, которая проиграла, оказалась Gemini 2.0 Flash.

Тестируем режим Side by Side

В этом режиме пользователь может сам выбрать две нейросети для сравнения.

Выпадающее меню с моделям находится над рабочей областью. Источник: lmarena.ai. 
Выпадающее меню с моделям находится над рабочей областью. Источник: lmarena.ai. 

В первом турнире будут участвовать модель Qwen 3 и Mistral Medium 3.1. Сравним ответы на вопрос «Что такое правило Кирхгофа». Он с подвохом, так как правило не одно — их два.

Обе нейросети заметили подвох и указали на то, что правил два. Источник: lmarena.ai.  
Обе нейросети заметили подвох и указали на то, что правил два. Источник: lmarena.ai.  

Структура ответа модели Qwen 3:

  • Описание законов.
  • Первое правило Кирхгофа с формулировкой и математической записью.
  • Второе правило Кирхгофа с формулировками и математической записью.
  • Применение.
  • Пример использования.
  • Итог.

Структура ответа модели Mistral Medium 3.1:

  • Описание законов.
  • Первое правило Кирхгофа с формулировкой, математической записью и примером.
  • Второе правило Кирхгофа с формулировкой, математической записью и примером.
  • Применение.
  • Важные замечания.
  • Вывод.

Ответ от Mistral более полный, содержит детали, которые понадобятся студентам при расчётах. Например, бот, среди прочего, подчеркнул, что направление токов и обхода контура выбираются произвольно.

Изучаем лучших из лучших

Кроме чата, где можно «сталкивать» две модели лбами, в LMArena есть раздел Leaderboard: таблица лидеров, формирующаяся на основе голосования пользователей, которые выбирают лучшую, на их взгляд, модель. В ней есть несколько рейтингов:

  • Text — лидеры среди нейросетей для генерации текста. 23 октября 2025 года на первом месте Gemini 2.5 Pro (лидеры ниже указаны за ту же дату).
  • WebDev — лидеры среди нейросетей для веб-разработки. На первой строчке GPT-5-high.
  • Vision — лидеры среди моделей, способных понимать и обрабатывать визуальные данные. Пока всех обходит Gemini 2.5 Pro.
  • Text-to-Image — лидеры среди нейросетей, которые генерируют изображения по текстовому промпту. На первом месте Hunyuan Image 3.0.
  • Image Edit — лидеры среди нейросетей для редактирования изображений. Первую строчку занимает Gemini 2.5 Flash.
  • Search — лидеры поиска информации с помощью нейросетей. Первый — Grok 4.
  • Text-to-Video — лидеры среди нейросетей, которые генерируют видео по текстовому промпту. Конкурентов обходит Veo 3.
  • Image-to-Video — лидеры среди нейросетей, которые генерируют видео по изображению. Первое место снова у Veo 3.
  • Copilot — лидеры среди нейросетей для программирования. На первом месте Claude 3.5 Sonnet.

Каждый рейтинг можно раскрыть. На странице будут указаны количество голосов, счёт каждой модели, дата последнего обновления рейтинга, средний процент выигрышей у каждой нейросети и другие метрики.

Количество побед для каждой комбинации моделей и средний процент выигрышей среди моделей. Источник: lmarena.ai.
Количество побед для каждой комбинации моделей и средний процент выигрышей среди моделей. Источник: lmarena.ai.
12
6 комментариев