Nemotron 3: как NVIDIA перестаёт быть «продавцом лопат» и выходит в открытую модельную войну

Nemotron 3: как NVIDIA перестаёт быть «продавцом лопат» и выходит в открытую модельную войну

К концу 2025 года NVIDIA сделала шаг, которого от неё давно ждали (и немного опасались): из чистого поставщика «лопат» для ИИ‑золотоискателей компания превращается в полноценного игрока на поле больших моделей. Запуск семейства открытых моделей Nemotron 3 (Nano / Super / Ultra) — не просто ещё один релиз, а стратегический манёвр, который меняет расстановку сил на рынке.

Если раньше разделение выглядело так:

  • NVIDIA — железо, CUDA, ускорение всего и вся;
  • OpenAI / Meta / Google / DeepSeek / xAI и др. — модели и приложения,

то теперь NVIDIA делает ход: она хочет не только продавать GPU, но и задавать стандарты того, какие именно модели на этих GPU будут работать.

Nemotron 3: гибридный «монстр» вместо чистого Transformer

Главная особенность Nemotron 3 — архитектура. Это не очередной «ещё один Transformer», а гибрид:

  • Mamba (SSM, state-space models) — линейная по длине контекста, быстрая, «длиннопамятная» часть;
  • Transformer (attention) — точные, логически сложные операции и «прицельное» обращение к прошлому контексту;
  • MoE (Mixture of Experts) — способ сделать модель огромной по общему числу параметров, но дешёвой в моменте за счёт активации лишь части нейронов.

Такой «коктейль» решает сразу две ключевые проблемы классического Transformer:

  1. Длинный контекстУ трансформеров стоимость по памяти растёт квадратично с длиной ввода. При сотнях тысяч и тем более миллионе токенов это становится практически неприемлемо.Mamba же, как SSM‑подход, обрабатывает последовательность с линейной сложностью и фиксированным по памяти состоянием — отсюда поддержка контекста до 1M токенов при вменяемых ресурсах.
  2. Цена «больших» моделейMoE позволяет иметь, условно, «30B параметров, но 3B активных» на каждый запрос:
  • множество «экспертов»;
  • роутер выбирает подзадаче нужных;
  • остальные параметров не трогают.Результат — производительность и гибкость крупной модели при ресурсах куда меньшей.

Семейство Nemotron 3: от ноутбука до суперкомпьютера

NVIDIA строит целую линейку, закрывающую все уровни вычислений:

Nemotron 3 Nano — «маленький спецназ» (уже доступен)

  • Общий размер: ~30B параметров
  • Активных при инференсе: ~3B
  • Цель: edge, десктопы, продвинутые ноутбуки, быстрые агентные сценарии
  • Фишки:
  • гибрид Mamba+Transformer+MoE;
  • до 1M контекста;
  • по заявлениям NVIDIA, до 4× больше throughput, чем у Nemotron 2 Nano.

Nano — витрина концепции: показать, что гибридная архитектура (Mamba+MoE) работает не только в теории, но и на компактных моделях с реальными задачами.

Nemotron 3 Super — «сердцеenterprise» (ожидается в 1П 2026)

  • Порядка 100B параметров, активных ~10B
  • Органы управления:
  • сложные корпоративные сценарии;
  • multi‑agent‑системы;
  • баланс между ценой инференса и качеством.

Ожидается развитие идей Latent MoE: ещё более тонкая маршрутизация экспертов под конкретные типы задач.

Nemotron 3 Ultra — «открытый вызов GPT‑5» (ожидается в 1П 2026)

  • Порядка 500B параметров, активных ~50B
  • Фокус на:
  • сложную цепочку рассуждений;
  • научные и инженерные задачи;
  • глубинное планирование.

Заявленная амбиция — стать «потолком» открытых моделей по части reasoning и масштаба, демонстрацией того, чего NVIDIA добивается на кластерах Blackwell.

NVFP4: формат как новый «замок» на экосистеме

Один из самых важных, но менее заметных ходов NVIDIA — введение формата NVFP4:

  • 4‑битное представление параметров;
  • до ~3,5× сжатия по сравнению с FP16/BF16;
  • специальная двухуровневая схема масштабирования, чтобы не потерять точность.

Практический вывод:500B‑модель в NVFP4 может по требованию памяти приближаться к сегодняшним 100B‑моделям, что выглядит фантастически привлекательно.

Но есть нюанс:

  • NVFP4 — родной формат для архитектуры Blackwell;
  • на других железках такой же выигрыш получить будет крайне сложно или невозможно.

Это «открытая, но привязанная» экосистема: веса Nemotron 3 — открыты, но их оптимальное использование практически требует GPU NVIDIA нового поколения. То же касается оптимизаций под Mamba, библиотек, RL‑сред NeMo Gym и прочего софта.

Зачем это NVIDIA: от продажи «лопат» к задаванию стандартов

На первый взгляд, NVIDIA и так в выигрышном положении — H100/Blackwell раскупают быстрее, чем они успевают выходить с фабрик. Зачем ещё и влезать в рынок моделей?

Причин несколько:

  1. Угроза со стороны альтернативного железа
  • AMD с ROCm;
  • TPU от Google;
  • собственные чипы облаков (AWS, Azure и др.).Если завтра ключевые и самые эффективные модели будут оптимизированы под чужие стеки, значимость CUDA и GPU NVIDIA ослабнет.
  1. Контроль над эволюцией архитектурПроталкивая гибрид Mamba+Transformer+MoE и NVFP4 как «дефолт», NVIDIA фактически:
  • задаёт вектор развития открытых моделей;
  • делает так, что лучше всего эти модели работают именно на её железе;
  • превращает не только GPU, но и формат данных и архитектуру моделей в часть своей «стены».
  1. Полный стек как новая нормаСтратегия теперь выглядит так:
  • железо: Blackwell, NVLink;
  • низкоуровневый софт: CUDA, TensorRT;
  • модели: Nemotron 3;
  • инференс и сервисы: NIMs, NeMo, RL‑окружения.

Для разработчика это рай: бери готовый стек и строй агентов, сервисы, доменные модели. Для конкурентов — кошмар: теперь нужно не просто сделать чип, но и догнать всю связку «архитектура–формат–фреймворки–модели».

Где Nemotron 3 сейчас в реальном рейтинге

По первым открытым метрикам Nemotron 3 Nano (30B‑A3B):

  • в общем рейтинге текстовых моделей — примерно 120‑е место;
  • среди открытых — около 47‑го.

То есть это пока не «номер один по IQ», а высококлассный, но не запредельный игрок. Однако с точки зрения эффективности на единицу железа, длинного контекста и дружбы с NVIDIA‑стеком — это очень сильное предложение.

Что это значит для экосистемы ИИ

Nemotron 3 — это не просто попытка NVIDIA «поиграть в модели». Это:

  • тестовый полигон для гибридной архитектуры Mamba+MoE;
  • демонстрация мощи Blackwell и NVFP4;
  • инструмент мягкого, но жёсткого «запирания» разработчиков в экосистеме.

Для разработчиков и компаний плюсы очевидны:

  • мощные, открытые модели;
  • бесшовная интеграция в инфраструктуру NVIDIA;
  • готовые RL‑среды и пайплайны для кастомизации под свои задачи и агентов.

Для всего рынка это сигнал: эпоха, когда NVIDIA «просто продавала лопаты», заканчивается. Теперь она хочет участвовать и в том, каким именно будет способ добычи «золота» — то есть сама форма и архитектура будущих больших моделей.

Начать дискуссию