DeepSeek-Math-V2: спокойный релиз, громкие цифры

Кратко о результатах

Уровень золотой медали на IMO 2025 и CMO 2024
Почти идеальный балл 118/120 на Putnam 2024
На IMO-ProofBench уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на сложных задачах

Что дальше

DeepSeek-Math-V2: спокойный релиз, громкие цифры

Кратко о результатах

Уровень золотой медали на IMO 2025 и CMO 2024
Почти идеальный балл 118/120 на Putnam 2024
На IMO-ProofBench уверенно обходит GPT-5 и сравнивается с Gemini 2.5 Pro на сложных задачах

Бенчмарков почти нет: ни MATH, ни GSM8K, ни AIME. Зато имеющиеся цифры выглядят многообещающе.

Как работает:

- генератор пишет решение

- верификатор проверяет каждый шаг, указывает на ошибки

- генератор переписывает и уточняет

- до 16 итераций, в каждой анализируется до 64 гипотез

Фактически сотни прогонов на одну задачу: умное масштабирование вычислений во время инференса

Материалы

Подписывайтесь на Telegram AI Adepts.