LMArena - гениальная платформа для оценки языковых моделей (и бесплатный агрегатор нейросетей)
LMArena — это платформа для независимой оценки качества языковых и мультимодальных моделей. Её задача — понять, какие системы дают наилучшие результаты не на бумаге, а на практике. В отличие от традиционных тестов, здесь качество измеряется массовыми анонимными голосами пользователей: люди сравнивают два ответа на один запрос и выбирают, какой из них лучше, не зная, какая модель стоит за каждым. Такой подход позволяет формировать открытый рейтинг, который учитывает реальные предпочтения, а не только формальные показатели.
СПОЙЛЕР: Вы хотели получить доступ к бесплатному агрегатору нейросетей? =) Так вот - это он.
Как работает LMArena
Основные этапы взаимодействия:
- Пользователь вводит свой запрос или выбирает готовый.
- Система показывает два ответа от разных моделей без указания, кто их сгенерировал.
- Пользователь выбирает лучший ответ.
- Система фиксирует выбор и обновляет рейтинг моделей, используя алгоритмы ранжирования.
Этот цикл повторяется миллионы раз с участием пользователей по всему миру. Регистрация не требуется, данные анонимны.
Какие задачи решает платформа
- Платформа собирает данные не на малой выборке тестовых запросов, а на тысячах разнообразных сценариев, включая текстовые задачи, генерацию изображений и мультимодальные запросы. Это позволяет получать более репрезентативную картину, чем стандартные лабораторные тесты.
- Голоса собираются анонимно и извне, что исключает возможность влиять на итоги со стороны разработчиков. Рейтинги открыты и регулярно обновляются.
- Методики подсчёта и обработки результатов публикуются. Любой желающий может изучить, как формируются рейтинги и какие параметры учитываются.
Кто стоит за проектом
LMArena разработана группой LMSYS — исследователями из UC Berkeley, Carnegie Mellon University и UC San Diego. В 2025 году проект выделился в отдельную компанию, привлёк $100 млн инвестиций от фондов Andreessen Horowitz, UC Investments, Lightspeed и Kleiner Perkins.
Чем LMArena отличается от стандартных тестов
- Стандартные бенчмарки оценивают точность, полноту или F1‑показатели на фиксированных датасетах. LMArena фиксирует, какие ответы люди считают более качественными, что даёт дополнительный ракурс на поведение моделей.
- В отличие от лабораторных сравнений, где работают с сотнями или тысячами примеров, LMArena агрегирует миллионы голосов.
- Рейтинги, методики и аналитика публикуются в открытом доступе — этим могут пользоваться не только инженеры, но и широкая аудитория.
LMArena — это не просто рейтинг или витрина для ИИ‑моделей, а инструмент, который помогает понять, какие системы действительно работают лучше в реальных задачах. Я использовал платформу не раз, тестируя запросы из разных областей.
Например, при сравнении ответов на вопрос «объясни разницу между TCP и UDP простыми словами» я ожидал, что GPT‑4 обойдёт менее известные модели вроде Claude или Gemini. Но несколько раз Claude давал объяснение проще и яснее, и в сравнении вслепую я сам выбирал его ответ. В другом случае я тестировал запросы на генерацию кода на Python. Оказалось, что open‑source модели справляются неожиданно хорошо, особенно если запрос сформулирован конкретно, без двусмысленностей.
Больше всего меня удивили тесты на нестандартные задачи. Я пробовал вводить запросы с эмоциональной окраской, например: «что сказать другу, который потерял работу». Здесь крупные модели вроде GPT‑4 и Claude были более чуткими, давали человечные ответы, тогда как open‑source модели часто выдавали сухие общие советы или просто повторяли шаблоны.
Что даёт личный опыт работы с LMArena? Во-первых, понимание того, что лидерборд — это не абстрактный список, а отражение конкретных сильных и слабых сторон. Во-вторых, понимание, что выбор модели всегда зависит от задачи: одна лучше справляется с кодом, другая — с гуманитарными запросами, третья — с мультимодальными задачами. И наконец, это практическое напоминание: нельзя полагаться только на маркетинговые заявления или громкие имена.
Подписывайтесь на мой ТГ-канал - там тоже много интересного =)