Малыш ZAYA1-8B рвёт большие модели: меньше миллиарда активных параметров и обучение только на AMD

Малыш ZAYA1-8B рвёт большие модели: меньше миллиарда активных параметров и обучение только на AMD

Компания Zyphra показала новую модель ZAYA1-8B, и это тот случай, когда цифры на бенчмарках выглядят подозрительно хорошо для восьмимиллиардника. Внутри совсем мало работает во время инференса: меньше одного миллиарда активных параметров, при этом она выходит на уровень моделей в десятки раз крупнее по математике, коду и рассуждениям.

Самое вкусное в бенчмарках выглядит так. На AIME 2026 модель выбила 89,1, и это практически ноздря в ноздрю с NVIDIA Nemotron 3 Nano на 30 миллиардов и Mistral 4 Small на 119 миллиардов. На HMMT 2026 ZAYA1-8B даёт 71,6 и обходит Mistral 4 Small с 70,6. На LCB v6 по коду она выдаёт 64,8, рядом с Nemotron 3 Nano и прилично выше Mistral. На GPQA-D выходит 71,0 против 75,1 у Nemotron и 77,2 у Mistral, но при разнице в десятки раз по размеру это выглядит почти неприлично. А вот Arcee Trinity Mini на 26 миллиардов ZAYA1-8B просто раздавила по всему фронту.

Самое интересное в стеке обучения. Zyphra сделала полный бет на AMD: вся инфраструктура тренинга работала без единого ускорителя NVIDIA. Для индустрии, где CUDA до сих пор фактически является синонимом слова «LLM», это очень сильное заявление. Плюс новые архитектурные решения, крупный RL-этап и свежий трюк для test-time compute под названием Markovian RSA, который вытягивает сложную математику через параллельные рассуждения и рекурсивную агрегацию ответов.

Если цифры подтвердятся на внешних тестах, мы получаем MoE-модель, которую реально держать в проде с адекватными затратами на инференс и при этом получать рассуждения уровня флагманов. Для компаний, которые устали платить за H100 и H200, история с чистым AMD-стеком выглядит как реальный альтернативный путь, а не очередной маркетинговый слайд.

Пока это внутренние бенчмарки самой Zyphra, но если хотя бы половина из этого воспроизведётся независимыми людьми, ZAYA1-8B окажется одной из самых интересных открытых моделей 2026 года. И одновременно первым серьёзным звонком для монополии NVIDIA на обучении больших языковых моделей.

Параметры и ссылки: D https://t.me/ai_machinelearning_big_data/10077

3
Начать дискуссию