Moonshot AI выпустили Kimi K2 Thinking — опенсорсную модель с reasoning побила GPT-5

Китайский стартап Moonshot AI анонсировал Kimi K2 Thinking — первую открытую модель с reasoning способностями на базе триллионного K2. И она серьёзно обгоняет конкурентов.

Триллион параметров, 32 млрд активных через Mixture-of-Experts, контекст 256K токенов.

Режимы работы:

Чат-режим — быстрые ответы без долгих размышлений
Полный агентский режим — скоро, с поддержкой автономным выполнением

Kimi K2 Thinking показал результаты SOTA среди опенсорсных моделей:

Humanity's Last Exam (HLE): 44.9% — вопросы экспертного уровня по всем дисциплинам

BrowseComp: 60.2% — агентский поиск и браузинг

Seal-0: 56.3% — сбор актуальной информации из реального мира

SWE-Multilingual: 61.1% — агентское программирование на разных языках

SWE-bench Verified: 71.3% — агентское программирование

LiveCodeBench V6: 83.1% — соревновательное программирование

Для сравнения — GPT-5 и Claude Sonnet 4.5 (Thinking) отстают по большинству показателей.

Test-time scaling: модель масштабирует и thinking токены, и tool-calling обращения. Может выполнять до 200-300 последовательных вызовов инструментов без участия человека.

Агентские способности: превосходит конкурентов в reasoning, агентском поиске и программировании.

Модель уже живая на kimi.com в чат-режиме. Полный агентский режим — скоро. Также доступна через API на platform.moonshot.ai. Код и веса открыты на Hugging Face под Modified MIT License.

Это вторая версия K2 от Moonshot AI. Базовую K2 они выпустили летом 2025 года — тогда модель уже обгоняла GPT-4 на coding задачах. Новая Thinking-версия добавляет reasoning способности и опережает даже самые свежие закрытые модели. Moonshot основали в 2023 году выпускники Tsinghua University. За полтора года стартап стал одним из лидеров китайского AI-бума, конкурируя с DeepSeek и Baidu.

Блшьще

Больше ИИ-новостей в моём Telegram канале

#ии #нейросеть #kimi #ai

Moonshot AI выпустили Kimi K2 Thinking — опенсорсную модель с reasoning побила GPT-5

Основные характеристики

Бенчмарки

Ключевые возможности

Доступность

Контекст