Скандал с ИИ-рейтингами — Нейрократия на vc.ru

Meta*, Google, OpenAI и Amazon подозреваются в подтасовке результатов рейтинговых соревнований нейросетей.

Скандал разгорелся после выхода исследования от Cohere, Stanford, MIT и Ai2 (оригинальный paper), посвящённого популярной площадке Chatbot Arena от проекта LM Arena. Если коротко, авторы обвиняют организаторов Arena в систематической помощи «избранным» ИИ-компаниям, предоставляя им скрытую возможность тестировать десятки вариантов своих моделей, а затем публиковать результаты только лучших из них.

Как это происходило? Суть Chatbot Arena проста: две анонимные модели выходят раз на раз, отвечая на вопросы пользователей и соревнуясь в этом. Чем больше побед одерживает модель, тем выше она поднимается в публичном рейтинге.

Однако, по данным исследования, Meta за период январь-март 2025 года тайно протестировала 27 вариантов своей модели семейства Llama 4. И опубликовала рейтинг лишь лучшего варианта — который (конечно) попал на верхние строчки чарта.

То же самое касается и других китов: OpenAI, Google и Amazon, которым отсыпали значительное количество подковерных баттлов для внутренних тестов. В итоге компании имели явное преимущество перед конкурентами, не получившими подобной привилегии.

Исследовали почти 3 миллиона баттлов за пять месяцев и пришли к выводу: «Объём скрытых тестов среди моделей от лидеров индустрии был гораздо большим, чем у других компаний», — отмечает Сара Хукер, соавтор исследования и вице-президент по ИИ-исследованиям Cohere.

Ответ LM Arena не заставил себя ждать — её основатель, профессор UC Berkeley Ион Стойка, считает, что исследование полно «неточностей и сомнительных выводов». LM Arena уверяют, что все участники могут тестировать модели сколько угодно, и это никак не связано с преимуществами. Но авторы исследования отмечают особый момент — далеко не всех ИИ-разработчиков вообще предупредили о такой возможности скрытого тестирования.

Более того, дополнительный объём данных, полученный при частых внутрирейтинговых баталиях в Arena, мог существенно улучшить результаты на другом популярном бенчмарке проекта — Arena Hard (до 112% прироста), о чем также пишут исследователи. Разработчики платформы, разумеется, отрицают эту взаимосвязь, заявляя, что Arena Hard и рейтинги Chatbot Arena не связаны напрямую.

Откуда такая непрозрачность? По мнению команды исследователей, ответ банален: сейчас LM Arena активно трансформируется в коммерческую компанию и собирается привлекать инвестиции (никогда такого не было и вот...).

К сожалению, это уже не первый скандал в истории рейтингов Chatbot Arena. Несколько недель назад обнаружилось, что Meta специально оптимизировала одну из моделей Llama 4 под «хороший разговорный рейтинг», опубликовав результаты именно этой модели — однако в открытый доступ ушла другая, «ванильная» версия, которая показала себя намного хуже.

Что делать? Авторское исследование предлагает несколько простых решений:

— Ввести прозрачные ограничения на количество закрытых тестов;

— Публиковать все результаты, а не только лидирующие версии;

— Использовать унифицированную частоту появления моделей в соревнованиях.

LM Arena уже заявили, что готовы изменить алгоритмы «рандомизации» баттлов, чтобы избежать подозрений в будущих манипуляциях. Но главная проблема осталась: индустрия ИИ всё больше опирается на рейтинги, и если они искажаются крупными игроками, то это ставит под сомнение всю систему оценки нейросетей.

*- запрещена в РФ

Подписывайтесь на Telegram-канал Нейрократия.