MiniMax M3: красивые бенчмарки и независимый тест на 13 процентов

Китайская лаборатория MiniMax выложила в открытый доступ модель M3 и заявила её как первую открытую модель, которая тянет сразу три фронтир-направления: кодинг и агентные сценарии, длинный контекст и работу с инструментами. В релизе цифры выглядят внушительно. SWE-Bench Pro 59 процентов, Terminal Bench 2.1 66 процентов, SWE-fficiency 34,8 процента, KernelBench Hard 28,8 процента, MCP Atlas 74,2 процента. Контекст за счёт механизма MiniMax Sparse Attention растягивается до миллиона токенов.

Для открытых весов это звучит как серьёзная заявка. Но самое интересное началось, когда модель прогнали вне домашнего стенда. Bleys Goodson запустил на M3 независимый бенчмарк DeepSWE и получил совсем другую картину: из 113 задач модель решила 15. Это 13,3 процента в строгом режиме с каноническим лимитом в 90 минут на задачу. Если дать агенту полуторакратное время сверх лимита, добавляется ещё четыре решения, итого 19 из 113, то есть 16,8 процента. Автор честно отметил, что эти четыре задачи закрылись только после превышения времени, и не засчитывает их как чистые решения.

Разрыв между 59 процентами в релизе и 13 процентами в независимом прогоне это не повод записывать модель в провал. Бенчмарки меряют разное, SWE-Bench Pro и DeepSWE собраны по-разному, лимиты и обвязка агента тоже отличаются. Но это хорошее напоминание, почему к табличкам из анонсов стоит относиться спокойно и ждать воспроизведения на стороне.

Что тут реально важно для практиков. Во-первых, открытые веса с миллионным контекстом и заявленной агентностью это то, что можно поднять у себя и проверить на своих задачах, а не верить на слово. Во-вторых, разреженное внимание как способ дотянуть контекст до миллиона токенов без квадратичной стоимости это направление, за которым стоит следить отдельно от самих бенчмарков. В-третьих, культура независимых прогонов наконец становится нормой, и это полезнее любого красивого графика.

Если коротко: модель любопытная, веса открыты, но реальную силу M3 покажут не слайды из релиза, а ваши собственные прогоны на ваших задачах.

Источники:

Анонс MiniMax M3: https://x.com/MiniMax_AI/status/2061266317815296322

Независимый тест DeepSWE: https://x.com/bleysg/status/2061499004844900657

Полный отчёт: https://entrpi.github.io/misc/deep-swe-minimax-m3/