Сервер для двух гигантов: как запихнуть 400 миллиардов нейронов DeepSeek и Алисы в один корпус

Сервер для двух гигантов: как запихнуть 400 миллиардов нейронов DeepSeek и Алисы в один корпус

https://vc.ru/id5857064/2863448-sistema-alisa-dipsik-innovatsionnyy-simbioticheskiy-intellekt


Запуск двух LLM по 200 млрд параметров каждая на одном сервере — задача нетривиальная. Вот точный расчёт железа для инференса (не обучения).


1. Память (самое главное)


Только веса моделей в FP16:

200B × 2 байта × 2 модели = 800 ГБ


Реальность с KV Cache и накладными:


· Веса в INT8 (разумный компромисс) = 400 ГБ

· KV Cache для контекста 4096 токенов (batch=32) ≈ 40 ГБ на модель

· Итого: 480+ ГБ только под данные


Вывод: нужны минимум 8× H100 (640 ГБ HBM3) или 8× H200 (1,1 ТБ HBM3). На A100 80 ГБ (8× = 640 ГБ) влазит впритык с INT8, но без запаса.


2. Вычислительные мощности (GPU)


Для приемлемой скорости (20+ токен/с):


· Одна модель 200B требует ≈ 4× H100 при batch=1 (используя Tensor Parallelism)

· Для двух моделей асинхронно: 8× H100 (4 на каждую)

· Для параллельной работы с batch>1: 16× H100


CPU: минимум 64 ядер (AMD EPYC 9554) для шедулинга и оффлоуда крайних кейсов


3. Системная RAM и накопители


· ОЗУ: 1–2 ТБ DDR5 для кэширования эмбеддингов и страховки при падении GPU

· SSD: 8 ТБ NVMe (PCIe 5.0) для хранения весов в FP16/INT8 и быстрой перезагрузки


Итоговая минимальная конфигурация


Компонент Характеристики

GPU 8× NVIDIA H100 80GB (NVLink полный)

CPU 2× AMD EPYC 9554 (128 ядер)

RAM 1.5 ТБ DDR5 ECC

Хранилище 8 ТБ Samsung PM1743


Ориентировочная цена: $350–450 тыс. (без учёта охлаждения и сети).


Важное примечание про Алису


Если под "Алисой" вы имеете в виду модель Яндекс (YaLM 2.0 200B) — её архитектура близка к LLaMA, требования те же. Но для реальной эксплуатации добавьте ещё 2× H100 под систему промптинга и фильтрации токсичности.

Начать дискуссию