DeepSeek R2: революционная архитектура и рекордная эффективность

DeepSeek R2: революционная архитектура и рекордная эффективность

Кратко: Инсайдеры раскрыли детали новой ИИ-модели DeepSeek R2 — гибридная архитектура Hybrid MoE 3.0, 1,2 трлн параметров (активно — 78 млрд), обучение на Huawei Ascend 910B и Nvidia H800. По данным тестов, стоимость обработки токена на 97,3% ниже, чем у GPT-4 Turbo. Релиз — уже в мае 2024 года.

Ключевые характеристики DeepSeek R2

1. Архитектура и масштаб

  • Hybrid MoE 3.0 – усовершенствованная версия Mixture of Experts.
  • 1,2 трлн параметров (но активируется только 78 млрд за раз), что обеспечивает высокую эффективность.

2. Аппаратная база

  • Обучение на Huawei Ascend 910B и Nvidia H800 (обход санкций?).
  • Производительность: 512 PFLOPS (FP16) – 91% от кластеров на Nvidia A100.

3. Экономическая эффективность

  • По данным Alibaba Cloud, стоимость обработки токена на 97,3% ниже, чем у GPT-4 Turbo.
  • Особенно выгодно на длинных контекстах (предположительно 128K+).

4. Потенциальное влияние

  • Может ослабить доминирование OpenAI на рынке.
  • Демонстрирует прогресс Китая в ИИ, несмотря на санкции.

Когда ждать релиз?

  • Май 2025 – если утечка верна, это изменит баланс сил в ИИ-индустрии.
2 комментария