Китайская MiniMax выпустила модель M2, которая в независимых тестах обошла Claude Opus и Gemini 2.5

Компания опубликовала исходный код и подключила её к своему ИИ-агенту.

Результаты MiniMax-M2. Итоговая оценка не равна числу решённых заданий, в наборе тестов их более 10 тысяч. Источник: Artificial Analysis
Результаты MiniMax-M2. Итоговая оценка не равна числу решённых заданий, в наборе тестов их более 10 тысяч. Источник: Artificial Analysis
  • MiniMax-M2 оптимизирована для программирования, в том числе выполнения «комплексных» задач по разработке ПО. В ней также сделали упор на агентские функции: автономное использование браузера и поиск информации.
  • В тестах независимых исследователей из Artificial Analysis она обошла Grok 4 Fast, Gemini 2.5 Pro, Claude Opus 4.1, последнюю «гибридную» версию DeepSeek V3 и Qwen3-235B от Alibaba. GPT-5-high и Grok 4 всё ещё возглавляют рейтинг. В бенчмарке проверяют научные знания, умение вычислять и писать код.
  • Компания добавила модель в чат-бота MiniMax с режимом ИИ-агента. Там её можно будет протестировать бесплатно в течение ограниченного времени. Сколько — неизвестно. Дальше бесплатная версия будет работать на базе предыдущей модели MiniMax-M1, которую представили в июне 2025 года.
  • Версию M2 выложили в открытый доступ на Hugging Face и GitHub. Она также есть в API. Работа с моделью стоит $0,3 и $1,2 за 1 млн входных и выходных токенов соответственно. MiniMax-M2 — модель на 230 млрд параметров, из которых активно используются 10 млрд.
19
30 комментариев