DeepSeek R2: революционная архитектура и рекордная эффективность
Кратко: Инсайдеры раскрыли детали новой ИИ-модели DeepSeek R2 — гибридная архитектура Hybrid MoE 3.0, 1,2 трлн параметров (активно — 78 млрд), обучение на Huawei Ascend 910B и Nvidia H800. По данным тестов, стоимость обработки токена на 97,3% ниже, чем у GPT-4 Turbo. Релиз — уже в мае 2024 года.
Ключевые характеристики DeepSeek R2
1. Архитектура и масштаб
- Hybrid MoE 3.0 – усовершенствованная версия Mixture of Experts.
- 1,2 трлн параметров (но активируется только 78 млрд за раз), что обеспечивает высокую эффективность.
2. Аппаратная база
- Обучение на Huawei Ascend 910B и Nvidia H800 (обход санкций?).
- Производительность: 512 PFLOPS (FP16) – 91% от кластеров на Nvidia A100.
3. Экономическая эффективность
- По данным Alibaba Cloud, стоимость обработки токена на 97,3% ниже, чем у GPT-4 Turbo.
- Особенно выгодно на длинных контекстах (предположительно 128K+).
4. Потенциальное влияние
- Может ослабить доминирование OpenAI на рынке.
- Демонстрирует прогресс Китая в ИИ, несмотря на санкции.
Когда ждать релиз?
- Май 2025 – если утечка верна, это изменит баланс сил в ИИ-индустрии.
2 комментария