Что такое LMArena и какие нейросети там можно тестировать

Площадка, на которой можно протестировать платные модели. Иногда — ещё до официального релиза.

LMArena: как работает платформа для сравнения нейросетей

LMArena — это платформа для оценки больших языковых моделей, созданная исследователями из Калифорнийского университета в Беркли (Минюст России внёс его в список нежелательных). Работает по модели турнира: пользователи тестируют и сравнивают модели, и на основе сравнений формируется рейтинг.

Некоторые ИИ-компании анонимно выкладывают на сайт бета-версии своих моделей. Так поступили, например, разработчики Nano Banana. Модель появилась на сайте за несколько дней до официального выхода.

Сайт: lmarena.ai.

Регистрация: не требуется.

Стоимость: бесплатно, среди нейросетей-«участниц» встречаются и платные модели.

Конфиденциальность: запросы и генерации используют для исследований в области ИИ.

Рабочая область LMArena. Источник: lmarena.ai.

В сервисе есть несколько режимов:

Battle. «Сражаются» две анонимные нейросети. Пользователю нужно задать промпт и решить, какая модель, на его взгляд, справилась лучше.
Side by Side. Соревнуются две заранее известные модели. Пользователю по-прежнему нужно выбрать победителя.
Direct Chat. Пользователь общается с одной моделью. Среди доступных нейросети Gemini, Claude, GPT, Grok, DeepSeek, Qwen, Llama и другие. Его тестировать не будем, нет соревновательного элемента.

В режиме Battle есть чат, в котором можно задать промпт и сравнить ответы нейросетей. Какие именно нейросети генерируют контент, пользователю неизвестно. По результатам теста нужно решить:

Отдать победу одной из моделей.
Засчитать ничью.
Пометить обе модели как плохие.

Протестируем нейросети для генерации текста. Спросим у чат-ботов, что такое меловой период.

Дал определение периоду.
Рассказал, почему он так называется.
Описал, какой была Земля в ту эпоху.
Поделился фактом о том, что именно тогда на планете появились цветы.
Дал список самых известных существ того периода.
Рассказал о великом вымирании от удара метеорита.

Дал краткое определение периода.
Расписал о динозаврах, флоре, географии и климате той эпохи.
Рассказал, почему период называется «меловым».
Завершил рассказ кратким описанием массового вымирания.
Сопроводил все заголовки эмодзи.

Победитель — ассистент «А». Его ответы более содержательные и структурированные.

После оценки над блоком с ответами появляются названия моделей. Ассистентом «А» оказалась модель lithiumflow (возможно, новая модель от Google), а ассистентом «B» — Claude Opus 4.1.

В том же режиме Battle пользователи могут генерировать и сравнивать изображения, искать информацию в сети, вайбкодить приложения и сайты.

Промпт: «Уставший динозавр-самурай. У него нет цели, только путь». Источник: lmarena.ai.

Явных галлюцинаций на изображениях нет. Детальность и глубина резкости картинки справа выше, чем у модели слева. Победитель — модель справа, Hunyuan Image 3.0. Нейросетью, которая проиграла, оказалась Gemini 2.0 Flash.

Валерия Ильина

AI 27.12.2024

Как пользоваться нейросетью HunyuanVideo для генерации видео

Китайская модель создаёт пятисекундные фрагменты по текстовому описанию.

В этом режиме пользователь может сам выбрать две нейросети для сравнения.

Выпадающее меню с моделям находится над рабочей областью. Источник: lmarena.ai.

В первом турнире будут участвовать модель Qwen 3 и Mistral Medium 3.1. Сравним ответы на вопрос «Что такое правило Кирхгофа». Он с подвохом, так как правило не одно — их два.

Обе нейросети заметили подвох и указали на то, что правил два. Источник: lmarena.ai.

Описание законов.
Первое правило Кирхгофа с формулировкой и математической записью.
Второе правило Кирхгофа с формулировками и математической записью.
Применение.
Пример использования.
Итог.

Описание законов.
Первое правило Кирхгофа с формулировкой, математической записью и примером.
Второе правило Кирхгофа с формулировкой, математической записью и примером.
Применение.
Важные замечания.
Вывод.

Ответ от Mistral более полный, содержит детали, которые понадобятся студентам при расчётах. Например, бот, среди прочего, подчеркнул, что направление токов и обхода контура выбираются произвольно.

Валерия Ильина

AI 14.02.2025

Le Chat: что умеет бесплатный чат-бот от Mistral AI

От редакции

Текст обновлён 2 июля 2025 года.

Пробуем раскрыть преступление с помощью нейросети.

Le Chat: что умеет бесплатный чат-бот от Mistral AI

Кроме чата, где можно «сталкивать» две модели лбами, в LMArena есть раздел Leaderboard: таблица лидеров, формирующаяся на основе голосования пользователей, которые выбирают лучшую, на их взгляд, модель. В ней есть несколько рейтингов:

Text — лидеры среди нейросетей для генерации текста. 23 октября 2025 года на первом месте Gemini 2.5 Pro (лидеры ниже указаны за ту же дату).
WebDev — лидеры среди нейросетей для веб-разработки. На первой строчке GPT-5-high.
Vision — лидеры среди моделей, способных понимать и обрабатывать визуальные данные. Пока всех обходит Gemini 2.5 Pro.
Text-to-Image — лидеры среди нейросетей, которые генерируют изображения по текстовому промпту. На первом месте Hunyuan Image 3.0.
Image Edit — лидеры среди нейросетей для редактирования изображений. Первую строчку занимает Gemini 2.5 Flash.
Search — лидеры поиска информации с помощью нейросетей. Первый — Grok 4.
Text-to-Video — лидеры среди нейросетей, которые генерируют видео по текстовому промпту. Конкурентов обходит Veo 3.
Image-to-Video — лидеры среди нейросетей, которые генерируют видео по изображению. Первое место снова у Veo 3.
Copilot — лидеры среди нейросетей для программирования. На первом месте Claude 3.5 Sonnet.

Каждый рейтинг можно раскрыть. На странице будут указаны количество голосов, счёт каждой модели, дата последнего обновления рейтинга, средний процент выигрышей у каждой нейросети и другие метрики.

Количество побед для каждой комбинации моделей и средний процент выигрышей среди моделей. Источник: lmarena.ai.

#lmarena #редакция

LMArena: как работает платформа для сравнения нейросетей

Как пользоваться LMArena

Тестируем режим Battle

Соперник «А»:

Соперник «B»:

Тестируем режим Side by Side

Структура ответа модели Qwen 3:

Структура ответа модели Mistral Medium 3.1:

Изучаем лучших из лучших