От 13 до 73 токенов в секунду: разгоняем нейросеть Nemotron дома

NVIDIA в марте 2026 выпустила Nemotron-Cascade-2-30B-A3B — нейросеть, которая взяла золото на трёх главных мировых соревнованиях по математике и программированию: IMO (международная олимпиада по математике для школьников), IOI (то же самое, но по информатике) и финале ICPC (главный командный чемпионат мира по программированию среди студентов — там соревнуются университеты вроде Гарварда, MIT и СПбГУ). И всё это при 30B общих параметров и 3B активных на токен

У меня i7-14700K, 16 ГБ VRAM, 32 ГБ RAM. По всем расчётам, 30B-модель сюда не должна влезать. Влезла — в кванте IQ4_XS (18.2 ГБ) с лёгким offload в RAM. IQ4_XS — это чит-код для NVIDIA-карт: качество как у Q4_K_S, размер как у Q3.

Первый запуск в LM Studio с дефолтными настройками: 13 токенов в секунду. Медленно. Различными настройками увеличил скорость в 5 раз.

Number of Experts: 14 → 8. LM Studio автоматически выставил 14 активных экспертов вместо родных 8. Скорость падает в полтора раза, качество тоже. Самый дешёвый и самый ощутимый буст — +12 t/s.

GPU Offload: подобрать так, чтобы не переливалось в Shared Memory. Estimated Memory Usage показывал 17.83 ГБ при моих 16 ГБ — значит ~2 ГБ ушли в RAM через PCIe. А обращение к VRAM через PCIe в 30+ раз медленнее, чем к локальной видеопамяти. Снизил GPU Offload с 52 до 47 слоёв, отключил Sysmem Fallback в NVIDIA Control Panel — драйвер перестал «спасать» через медленную RAM. +15 t/s.

CPU Threads: 12 → 8. У i7-14700K 8 P-ядер + 16 E-ядер. E-ядра в 1.5 раза медленнее и тормозят синхронизацию потоков. Используем только P-ядра. +5 t/s.

KV Cache в Q8_0. По умолчанию ключи и значения внимания хранятся в FP16, переключение на Q8 экономит 30% VRAM под кэш почти без потери качества. Высвобожденное идёт под слои модели. +10 t/s.

Закрыл браузер и Discord. Высвободил ещё ~1 ГБ VRAM. Discord с аппаратной акселерацией съедает до 500 МБ, браузер с YouTube — до 2 ГБ.

Отключил thinking-режим. Главное открытие. По умолчанию модель сначала пишет 200–300 токенов размышлений в <think>...</think>, потом даёт ответ. На простом вопросе это съедает кучу времени.

Особенность: в Nemotron-Cascade-2 команда /no_think не работает — NVIDIA её убрали. Режим переключается через Jinja-шаблон. Открываем Prompt Template в LM Studio, меняем else True на else False в строке с enable_thinking. Сохраняем, начинаем новый чат.

Не выключайте насовсем. Олимпиадная задача про целые n такие, что n²+19n+92 — полный квадрат: без thinking модель ошибается, с thinking — даёт n=-8, n=-11 с полным доказательством. ASP.NET Core CRUD — путается в обоих режимах (специализация не про веб, я нашёл три критические ошибки компиляции в её коде).

Держу два пресета шаблона: enable_thinking = False для повседневной работы, True для серьёзной математики и алгоритмики.

Берите Nemotron-Cascade-2 если решаете олимпиадные задачи, тренируетесь на Codeforces, готовитесь к алгоритмическим интервью или строите tool-use агентов с жёсткими правилами. Для повседневного чата и веб-разработки лучше Qwen3.5-35B-A3B или Gemma 4 — у них общие знания на 5+ баллов выше по MMLU-Pro.

Эпоха «одна модель на всё» подходит к концу. Выбор модели становится осознанным выбором под задачу.

Больше про LLM и AI — в нашем Telegram-канале (@devgeek_sh). Разбираем новые модели, делимся опытом и полезными находками.

От 13 до 73 токенов в секунду: разгоняем нейросеть Nemotron дома

Что я нашёл по дороге к 73 t/s

Когда thinking всё-таки нужен

Кому брать