NVIDIA сделала свою самую умную нейросеть. Смотрим и сравниваем.
1 июня на Computex в Тайбэе Дженсен Хуанг вышел на сцену и показал Nemotron 3 Ultra — самую мощную открытую модель, которую когда-либо выпускали в США. 550 миллиардов параметров, рекордная для открытых моделей скорость, громкие слова про «лучший открытый ИИ Америки». Звучит как победа.
Проблема в одном графике, который в тот же день выкатила Artificial Analysis — независимый сервис, меряющий модели по единому индексу. На нём Nemotron 3 Ultra набирает 48 баллов. А две китайские открытые модели — Kimi K2.6 и DeepSeek V4 Pro — стоят выше. То есть лучшее, что смогли США в открытых весах, — это всё ещё второе, а то и третье место.
Больше про LLM и AI — в нашем Telegram-канале (@devgeek_sh). Разбираем новые модели, делимся опытом и полезными находками.
Разберёмся, что именно показала NVIDIA, почему это всё равно отставание, в чём её единственный реальный козырь — и, главное, на чём из всего этого зоопарка реально работать в 2026-м. С ценами.
Что показала NVIDIA
Nemotron 3 Ultra — флагман семейства Nemotron 3, в котором три модели: Nano (для лёгких задач), Super (средний корпоративный сегмент) и Ultra (тяжёлые рассуждения). Ultra — самая большая: около 550 млрд параметров при 90% разреженности, то есть на каждый запрос реально работает лишь малая часть весов (~55 млрд активных). Это классическая архитектура Mixture-of-Experts, как и у китайских конкурентов.
Линейка Nemotron набрала больше 50 млн скачиваний ещё до выхода Ultra — то есть это не разовый эксперимент, а уже популярное семейство. Веса открытые, модель отгружают 4 июня. Параллельно NVIDIA объявила, что уже работает над следующим поколением — Nemotron 4 — в рамках «коалиции Nemotron»: это восемь лабораторий, включая Mistral и Perplexity, которых компания собрала ещё в марте, чтобы вместе делать открытые фронтир-модели на своей инфраструктуре.
По железу и амбициям — всё серьёзно. NVIDIA явно хочет быть не только производителем чипов, но и игроком на уровне самих моделей.
Почему это всё равно второе место
Теперь к тому самому графику. Artificial Analysis считает Intelligence Index — усреднённую оценку по рассуждениям, коду, общим знаниям и агентным задачам. Важно, что это сторонний сервис, а не маркетинг самого вендора. Расклад на июнь такой:
Модель Индекс Тип
Флагманы Anthropic / Google / OpenAI 57 закрытые
Kimi K2.6 (Moonshot, Китай) 54 открытая
DeepSeek V4 Pro (Китай) 52 открытая
Nemotron 3 Ultra (NVIDIA, США) 48 открытая
Gemma 4 31B (Google, США) 39 открытая
gpt-oss-120b (OpenAI, США) 33 открытая
Ключевое здесь — строчка Kimi. 54 балла — это всего на 3 ниже закрытых флагманов Anthropic, Google и OpenAI и четвёртое место в мире среди вообще всех моделей, открытых и закрытых. Лучшая открытая модель планеты — китайская, и она почти достаёт топовые платные.
И это не разовый рывок. С 7 по 24 апреля, за 17 дней, четыре китайские лаборатории выпустили открытые модели подряд: GLM-5.1, MiniMax M2.7, Kimi K2.6 и DeepSeek V4. DeepSeek V4 Pro — это вообще 1,6 трлн параметров, крупнейшая открытая модель на рынке. На фоне такого темпа один анонс NVIDIA, пусть и громкий, выглядит как догоняющий.
Единственный, но важный козырь: скорость
Где Nemotron реально выигрывает — это не «ум», а скорость отдачи. На предрелизном эндпоинте (DeepInfra) Ultra выдаёт больше 300 токенов в секунду. Сопоставимые по размеру китайские модели — DeepSeek V4 Pro и Kimi K2.6 — на коммерческих API отдают 50–100 токенов в секунду. То есть в 3–6 раз медленнее. NVIDIA заявляет ещё и примерно на 30% меньшую стоимость инференса и около 5× более быстрый инференс по сравнению с моделями того же класса.
Почему это важно и кому. В чате скорость почти не чувствуется — человек всё равно читает медленнее модели. Но она критична для агентов: когда модель в цикле сама читает файлы, запускает команды, правит код и прогоняет тесты, каждый шаг ждёт предыдущего. На длинной агентной задаче из десятков шагов разница «300 против 80 токенов/с» превращается в минуты против секунд. Если вы гоняете автономных агентов в проде, Nemotron тут может оказаться выгоднее, даже уступая пару баллов в «интеллекте».
На чём реально работать: цены
Модель Вход, $/1М $/1МВыход, $/1М За что брать
DeepSeek V4 Flash 0.14$ 0.28$ самый дешёвый рабочий вариант
DeepSeek V4 Pro 1.74$ 3.48$ почти-флагман для сложных задач,
Kimi K2.6 ~0.60$ ~2.50$ мультимодальная, сильна в коде и агентах
GLM-5.1 1.40$ 4.40$ альтернатива, но дорогой выход
Claude Opus 4.8 5$ 25$ закрытый флагман, ревью и reasoning
GPT-5.5 5$ 25$ закрытый флагман
Разрыв нагляднее всего на V4 Flash : $0.14 за миллион входных токенов против ~$5 у западных флагманов — это примерно в 35–100 раз дешевле в зависимости от длины контекста. DeepSeek вдобавок по умолчанию кеширует контекст: если вы гоняете один и тот же системный промпт, повторный вход падает до ~$0.003 за миллион — фактически бесплатно.
Nemotron 3 Ultra в эту таблицу по фиксированной цене пока не ставлю: модель открытая и только отгружается 4 июня, поэтому её стоимость зависит от того, у какого провайдера (или на своём железе) вы её крутите. Пока её гоняли на предрелизном эндпоинте DeepInfra.
Если считать токены лень, есть подписочный путь: Ollama Cloud (Free $0 / Pro $20 / Max $100 в месяц) крутит и GLM-5.1, и DeepSeek V4 Pro, и Kimi K2.6 — оплата по GPU-времени, а не по токенам. А у самого DeepSeek при регистрации дают 5 млн токенов бесплатно на 30 дней — хватит, чтобы спокойно всё протестировать.
Что брать под задачу
Коротко, без воды:
- Фоновые и объёмные задачи (классификация, разметка, массовая обработка) — DeepSeek V4 Flash. Дешевле почти не бывает.
- Ежедневный кодинг-агент — Kimi K2.6: близко к флагманам на бенчмарках кода, мультимодальная, адекватная цена.
- Максимум «ума» среди открытых — DeepSeek V4 Pro или Kimi K2.6. Это сейчас потолок открытых весов.
- Автономные агенты, где важна скорость цикла — стоит присмотреться к Nemotron 3 Ultra, как только он нормально появится у провайдеров.
- Сложное ревью и архитектурные рассуждения, где ошибка дорого стоит, — закрытые Opus и GPT всё ещё впереди по надёжности, и иногда проще доплатить.
Рабочий паттерн на 2026-й — не «одна модель на всё», а связка: дешёвая открытая по умолчанию, дорогой флагман на самые сложные шаги.
Итог
Заголовки про «лучшую открытую модель США» технически верны — среди американских открытых весов Nemotron 3 Ultra действительно первый, с большим отрывом от Gemma 4 (39) и gpt-oss (33). Но как только в сравнение добавляют Китай, картинка переворачивается: лучшая открытая модель мира по-прежнему китайская, и таких моделей у Китая не одна.
Реальный вклад NVIDIA — не в том, что она кого-то обогнала по интеллекту (не обогнала), а в скорости: американская открытая модель наконец-то отдаёт токены в разы быстрее китайских. Для агентов это может значить больше, чем пара баллов индекса.
А для практика вывод почти не изменился с прошлого раунда: открытые модели за 1/30 цены западных флагманов уже достаточно хороши для большинства задач — и большая часть этого «достаточно хорошо» по-прежнему приезжает из Китая, через тех же агрегаторов вроде OpenRouter и без танцев с бубном. NVIDIA добавила в этот список быстрый американский вариант. Гонку за самый умный открытый ИИ она пока не выиграла — но сделала её заметно интереснее.
Больше про LLM и AI — в нашем Telegram-канале (@devgeek_sh). Разбираем новые модели, делимся опытом и полезными находками.