Meta* выпустила Llama 4 и, кажется, немножко обманывает людей
Компания Meta* запустила новую семью моделей Llama — это Llama 4 Scout, Llama 4 Maverick и Llama 4 Behemoth. Они были обучены на широком спектре текстовой информации, видео и картинках, чтобы научиться расширенному визуальному пониманию.
Говорят, выход звездного DeepSeek-R1 сильно подкосил Meta*, вынудив их трудиться с удвоенной силой. Результатом работы стала новая нейросемья Llama 4. Scout и Maverick уже доступны на сайте Llama.com и платформе Hugging Face, Behemoth пока еще проходит обучение. Meta AI, ассистент на основе искусственного интеллекта, который работает в приложениях WhatsApp, Messenger и Instagram*, уже был обновлен до новейшей версии. Правда, мультимодальные фичи — связанные с картинками и видео — пока доступны только в США.
Что там у ламы?
Llama 4 — первая семья ИИ у Meta*, в которой для обучения использовалась техника «смесь экспертов» (mixture of experts, MoE) — угадайте, в какой китайской нейросети она применялась? Сама по себе эта техника разделяет задания на субзадания и потом делегирует их «экспертам». Например, если стоит таск «перевести текст», модель будет делегировать его условному «переводчику», а если задача что-то подсчитать, то «математику».
У Maverick около 400 миллиардов параметров, но из них активных только 17 млрд. «Экспертов» при этом 128. У Scout 17 млрд активных параметров и 16 экспертов.
Согласно внутренним испытаниям, Maverick превосходит модели конкурентов, такие как OpenAI GPT-4o и Google Gemini 2.0. Однако он уступает новейшим флагманским нейросетям — Google Gemini 2.5 Pro, Anthropic Claude 3.7 Sonnet и OpenAI GPT-4.5.
Llama о двух головах
Здесь и возникают вопросы. На бенчмарке LMArena Maverick якобы занял второе место, уступив только Gemini-2.5. Стоит рассказать немного про этот бенчмарк: в этом тесте эффективность нейросети замеряют люди, которые вручную выбирают лучший из результатов генерации. Однако создается впечатление, что версия Maverick, использованная для проверки на бенчмарке, отличается от выпущенной в широкий доступ.
По крайней мере, на это указали несколько исследователей ИИ в социальной сети X (бывший Twitter, заблокирован в России). В пресс-релизе Meta* написано, что Maverick для LMArena — это «экспериментальная чат-версия», тогда как на официальном сайте сказано, что для испытаний на бенчмарке использовался вариант, «оптимизированный для разговоров».
Как отметил Нейтан Ламберт, «Llama 4 реально немного искажен».
Пусть LMArena и не лучший бенчмарк для проверки потенциала нейросетей, однако до этого ни один разработчик не пытался использовать в тестировании какую-то особую версию модели. Или, по крайней мере, не признавался в этом.
Признаваться в этом не стал и в Meta*. В своем посте в соцсети X (бывший Twitter, заблокирован в России) Ахмад Аль-Дале, вице-президент отдела генеративного ИИ, написал, что «это просто неправда», что компания тренировала Llama 4 Maverick и Llama 4 Scout на «тестовых сетах». В бенчмарках тестовые сеты — это коллекции данных, используемые для оценки модели после того, как она была обучена. Тренировка на тестовом сете может повысить результаты испытания на бенчмарках, таким образом сделав модель более эффективной, чем она есть на самом деле.
В чем истина? Вероятно, покажет время. Но возникает еще один вопрос — сколько других разработчиков использовали тестовые сеты или другие модели просто для того, чтобы в испытаниях на бенчмарках показаться лучше?
*Meta признана экстремистской и запрещена в России