DeepSeek-Math-V2: спокойный релиз, громкие цифры
Кратко о результатах
- Уровень золотой медали на IMO 2025 и CMO 2024
- Почти идеальный балл 118/120 на Putnam 2024
- На IMO-ProofBench уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на сложных задачах
Что дальше
- Интересно, как модель покажет себя против будущих Gemini 3, Grok 4 и GPT-5.1
DeepSeek-Math-V2: спокойный релиз, громкие цифры
Кратко о результатах
- Уровень золотой медали на IMO 2025 и CMO 2024
- Почти идеальный балл 118/120 на Putnam 2024
- На IMO-ProofBench уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на сложных задачах
Бенчмарков почти нет: ни MATH, ни GSM8K, ни AIME. Зато имеющиеся цифры выглядят многообещающе.
Как работает:
- Базовая модель DeepSeek-V3.2-Exp-Base
- Два ключевых модуля: генератор и верификато
- Процесс многошаговый:
- генератор пишет решение
- верификатор проверяет каждый шаг, указывает на ошибки
- генератор переписывает и уточняет
- до 16 итераций, в каждой анализируется до 64 гипотез
- Фактически сотни прогонов на одну задачу: умное масштабирование вычислений во время инференса
Материалы
Подписывайтесь на Telegram AI Adepts.
Начать дискуссию