Nemotron 3: как NVIDIA перестаёт быть «продавцом лопат» и выходит в открытую модельную войну
К концу 2025 года NVIDIA сделала шаг, которого от неё давно ждали (и немного опасались): из чистого поставщика «лопат» для ИИ‑золотоискателей компания превращается в полноценного игрока на поле больших моделей. Запуск семейства открытых моделей Nemotron 3 (Nano / Super / Ultra) — не просто ещё один релиз, а стратегический манёвр, который меняет расстановку сил на рынке.
Если раньше разделение выглядело так:
- NVIDIA — железо, CUDA, ускорение всего и вся;
- OpenAI / Meta / Google / DeepSeek / xAI и др. — модели и приложения,
то теперь NVIDIA делает ход: она хочет не только продавать GPU, но и задавать стандарты того, какие именно модели на этих GPU будут работать.
Nemotron 3: гибридный «монстр» вместо чистого Transformer
Главная особенность Nemotron 3 — архитектура. Это не очередной «ещё один Transformer», а гибрид:
- Mamba (SSM, state-space models) — линейная по длине контекста, быстрая, «длиннопамятная» часть;
- Transformer (attention) — точные, логически сложные операции и «прицельное» обращение к прошлому контексту;
- MoE (Mixture of Experts) — способ сделать модель огромной по общему числу параметров, но дешёвой в моменте за счёт активации лишь части нейронов.
Такой «коктейль» решает сразу две ключевые проблемы классического Transformer:
- Длинный контекстУ трансформеров стоимость по памяти растёт квадратично с длиной ввода. При сотнях тысяч и тем более миллионе токенов это становится практически неприемлемо.Mamba же, как SSM‑подход, обрабатывает последовательность с линейной сложностью и фиксированным по памяти состоянием — отсюда поддержка контекста до 1M токенов при вменяемых ресурсах.
- Цена «больших» моделейMoE позволяет иметь, условно, «30B параметров, но 3B активных» на каждый запрос:
- множество «экспертов»;
- роутер выбирает подзадаче нужных;
- остальные параметров не трогают.Результат — производительность и гибкость крупной модели при ресурсах куда меньшей.
Семейство Nemotron 3: от ноутбука до суперкомпьютера
NVIDIA строит целую линейку, закрывающую все уровни вычислений:
Nemotron 3 Nano — «маленький спецназ» (уже доступен)
- Общий размер: ~30B параметров
- Активных при инференсе: ~3B
- Цель: edge, десктопы, продвинутые ноутбуки, быстрые агентные сценарии
- Фишки:
- гибрид Mamba+Transformer+MoE;
- до 1M контекста;
- по заявлениям NVIDIA, до 4× больше throughput, чем у Nemotron 2 Nano.
Nano — витрина концепции: показать, что гибридная архитектура (Mamba+MoE) работает не только в теории, но и на компактных моделях с реальными задачами.
Nemotron 3 Super — «сердцеenterprise» (ожидается в 1П 2026)
- Порядка 100B параметров, активных ~10B
- Органы управления:
- сложные корпоративные сценарии;
- multi‑agent‑системы;
- баланс между ценой инференса и качеством.
Ожидается развитие идей Latent MoE: ещё более тонкая маршрутизация экспертов под конкретные типы задач.
Nemotron 3 Ultra — «открытый вызов GPT‑5» (ожидается в 1П 2026)
- Порядка 500B параметров, активных ~50B
- Фокус на:
- сложную цепочку рассуждений;
- научные и инженерные задачи;
- глубинное планирование.
Заявленная амбиция — стать «потолком» открытых моделей по части reasoning и масштаба, демонстрацией того, чего NVIDIA добивается на кластерах Blackwell.
NVFP4: формат как новый «замок» на экосистеме
Один из самых важных, но менее заметных ходов NVIDIA — введение формата NVFP4:
- 4‑битное представление параметров;
- до ~3,5× сжатия по сравнению с FP16/BF16;
- специальная двухуровневая схема масштабирования, чтобы не потерять точность.
Практический вывод:500B‑модель в NVFP4 может по требованию памяти приближаться к сегодняшним 100B‑моделям, что выглядит фантастически привлекательно.
Но есть нюанс:
- NVFP4 — родной формат для архитектуры Blackwell;
- на других железках такой же выигрыш получить будет крайне сложно или невозможно.
Это «открытая, но привязанная» экосистема: веса Nemotron 3 — открыты, но их оптимальное использование практически требует GPU NVIDIA нового поколения. То же касается оптимизаций под Mamba, библиотек, RL‑сред NeMo Gym и прочего софта.
Зачем это NVIDIA: от продажи «лопат» к задаванию стандартов
На первый взгляд, NVIDIA и так в выигрышном положении — H100/Blackwell раскупают быстрее, чем они успевают выходить с фабрик. Зачем ещё и влезать в рынок моделей?
Причин несколько:
- Угроза со стороны альтернативного железа
- AMD с ROCm;
- TPU от Google;
- собственные чипы облаков (AWS, Azure и др.).Если завтра ключевые и самые эффективные модели будут оптимизированы под чужие стеки, значимость CUDA и GPU NVIDIA ослабнет.
- Контроль над эволюцией архитектурПроталкивая гибрид Mamba+Transformer+MoE и NVFP4 как «дефолт», NVIDIA фактически:
- задаёт вектор развития открытых моделей;
- делает так, что лучше всего эти модели работают именно на её железе;
- превращает не только GPU, но и формат данных и архитектуру моделей в часть своей «стены».
- Полный стек как новая нормаСтратегия теперь выглядит так:
- железо: Blackwell, NVLink;
- низкоуровневый софт: CUDA, TensorRT;
- модели: Nemotron 3;
- инференс и сервисы: NIMs, NeMo, RL‑окружения.
Для разработчика это рай: бери готовый стек и строй агентов, сервисы, доменные модели. Для конкурентов — кошмар: теперь нужно не просто сделать чип, но и догнать всю связку «архитектура–формат–фреймворки–модели».
Где Nemotron 3 сейчас в реальном рейтинге
По первым открытым метрикам Nemotron 3 Nano (30B‑A3B):
- в общем рейтинге текстовых моделей — примерно 120‑е место;
- среди открытых — около 47‑го.
То есть это пока не «номер один по IQ», а высококлассный, но не запредельный игрок. Однако с точки зрения эффективности на единицу железа, длинного контекста и дружбы с NVIDIA‑стеком — это очень сильное предложение.
Что это значит для экосистемы ИИ
Nemotron 3 — это не просто попытка NVIDIA «поиграть в модели». Это:
- тестовый полигон для гибридной архитектуры Mamba+MoE;
- демонстрация мощи Blackwell и NVFP4;
- инструмент мягкого, но жёсткого «запирания» разработчиков в экосистеме.
Для разработчиков и компаний плюсы очевидны:
- мощные, открытые модели;
- бесшовная интеграция в инфраструктуру NVIDIA;
- готовые RL‑среды и пайплайны для кастомизации под свои задачи и агентов.
Для всего рынка это сигнал: эпоха, когда NVIDIA «просто продавала лопаты», заканчивается. Теперь она хочет участвовать и в том, каким именно будет способ добычи «золота» — то есть сама форма и архитектура будущих больших моделей.