Сервер для двух гигантов: как запихнуть 400 миллиардов нейронов DeepSeek и Алисы в один корпус
https://vc.ru/id5857064/2863448-sistema-alisa-dipsik-innovatsionnyy-simbioticheskiy-intellekt
Запуск двух LLM по 200 млрд параметров каждая на одном сервере — задача нетривиальная. Вот точный расчёт железа для инференса (не обучения).
1. Память (самое главное)
Только веса моделей в FP16:
200B × 2 байта × 2 модели = 800 ГБ
Реальность с KV Cache и накладными:
· Веса в INT8 (разумный компромисс) = 400 ГБ
· KV Cache для контекста 4096 токенов (batch=32) ≈ 40 ГБ на модель
· Итого: 480+ ГБ только под данные
Вывод: нужны минимум 8× H100 (640 ГБ HBM3) или 8× H200 (1,1 ТБ HBM3). На A100 80 ГБ (8× = 640 ГБ) влазит впритык с INT8, но без запаса.
2. Вычислительные мощности (GPU)
Для приемлемой скорости (20+ токен/с):
· Одна модель 200B требует ≈ 4× H100 при batch=1 (используя Tensor Parallelism)
· Для двух моделей асинхронно: 8× H100 (4 на каждую)
· Для параллельной работы с batch>1: 16× H100
CPU: минимум 64 ядер (AMD EPYC 9554) для шедулинга и оффлоуда крайних кейсов
3. Системная RAM и накопители
· ОЗУ: 1–2 ТБ DDR5 для кэширования эмбеддингов и страховки при падении GPU
· SSD: 8 ТБ NVMe (PCIe 5.0) для хранения весов в FP16/INT8 и быстрой перезагрузки
Итоговая минимальная конфигурация
Компонент Характеристики
GPU 8× NVIDIA H100 80GB (NVLink полный)
CPU 2× AMD EPYC 9554 (128 ядер)
RAM 1.5 ТБ DDR5 ECC
Хранилище 8 ТБ Samsung PM1743
Ориентировочная цена: $350–450 тыс. (без учёта охлаждения и сети).
Важное примечание про Алису
Если под "Алисой" вы имеете в виду модель Яндекс (YaLM 2.0 200B) — её архитектура близка к LLaMA, требования те же. Но для реальной эксплуатации добавьте ещё 2× H100 под систему промптинга и фильтрации токсичности.