DeepSeek R2: революционная архитектура и рекордная эффективность

Кратко: Инсайдеры раскрыли детали новой ИИ-модели DeepSeek R2 — гибридная архитектура Hybrid MoE 3.0, 1,2 трлн параметров (активно — 78 млрд), обучение на Huawei Ascend 910B и Nvidia H800. По данным тестов, стоимость обработки токена на 97,3% ниже, чем у GPT-4 Turbo. Релиз — уже в мае 2024 года.

Опробовать DeepSeek вы можете тут совершенно бесплатно

Hybrid MoE 3.0 – усовершенствованная версия Mixture of Experts.
1,2 трлн параметров (но активируется только 78 млрд за раз), что обеспечивает высокую эффективность.

Обучение на Huawei Ascend 910B и Nvidia H800 (обход санкций?).
Производительность: 512 PFLOPS (FP16) – 91% от кластеров на Nvidia A100.

По данным Alibaba Cloud, стоимость обработки токена на 97,3% ниже, чем у GPT-4 Turbo.
Особенно выгодно на длинных контекстах (предположительно 128K+).

Может ослабить доминирование OpenAI на рынке.
Демонстрирует прогресс Китая в ИИ, несмотря на санкции.

Май 2025 – если утечка верна, это изменит баланс сил в ИИ-индустрии.

DeepSeek R2: революционная архитектура и рекордная эффективность

Ключевые характеристики DeepSeek R2

1. Архитектура и масштаб

2. Аппаратная база

3. Экономическая эффективность

4. Потенциальное влияние

Когда ждать релиз?