Сервер для двух гигантов: как запихнуть 400 миллиардов нейронов DeepSeek и Алисы в один корпус

https://vc.ru/id5857064/2863448-sistema-alisa-dipsik-innovatsionnyy-simbioticheskiy-intellekt

Запуск двух LLM по 200 млрд параметров каждая на одном сервере — задача нетривиальная. Вот точный расчёт железа для инференса (не обучения).

1. Память (самое главное)

Только веса моделей в FP16:

200B × 2 байта × 2 модели = 800 ГБ

Реальность с KV Cache и накладными:

· Веса в INT8 (разумный компромисс) = 400 ГБ

· KV Cache для контекста 4096 токенов (batch=32) ≈ 40 ГБ на модель

· Итого: 480+ ГБ только под данные

Вывод: нужны минимум 8× H100 (640 ГБ HBM3) или 8× H200 (1,1 ТБ HBM3). На A100 80 ГБ (8× = 640 ГБ) влазит впритык с INT8, но без запаса.

2. Вычислительные мощности (GPU)

Для приемлемой скорости (20+ токен/с):

· Одна модель 200B требует ≈ 4× H100 при batch=1 (используя Tensor Parallelism)

· Для двух моделей асинхронно: 8× H100 (4 на каждую)

· Для параллельной работы с batch>1: 16× H100

CPU: минимум 64 ядер (AMD EPYC 9554) для шедулинга и оффлоуда крайних кейсов

3. Системная RAM и накопители

· ОЗУ: 1–2 ТБ DDR5 для кэширования эмбеддингов и страховки при падении GPU

· SSD: 8 ТБ NVMe (PCIe 5.0) для хранения весов в FP16/INT8 и быстрой перезагрузки

Итоговая минимальная конфигурация

Компонент Характеристики

GPU 8× NVIDIA H100 80GB (NVLink полный)

CPU 2× AMD EPYC 9554 (128 ядер)

RAM 1.5 ТБ DDR5 ECC

Хранилище 8 ТБ Samsung PM1743

Ориентировочная цена: $350–450 тыс. (без учёта охлаждения и сети).

Важное примечание про Алису

Если под "Алисой" вы имеете в виду модель Яндекс (YaLM 2.0 200B) — её архитектура близка к LLaMA, требования те же. Но для реальной эксплуатации добавьте ещё 2× H100 под систему промптинга и фильтрации токсичности.