Год спустя после шока от DeepSeek R1: Китайцы анонсировали MODEL1 и обещают V4 в феврале
Прошёл ровно год с того момента, как китайская DeepSeek взорвала Кремниевую долину своим R1. Тогда Nvidia потеряла $593 млрд рыночной капитализации за один день — инвесторы запаниковали: "А зачем нам эти миллиарды на суперкомпьютеры, если китайцы делают то же самое за копейки?" DeepSeek тогда потратили меньше $6 млн на тренировку модели, которая уделала OpenAI o1 в математике и кодинге. Ирония в том, что Китай продолжает экспансию по принципу "чуть хуже, но в разы дешевле". А теперь, судя по всему, "чуть хуже" уже стёрлось — пора привыкать.
MODEL1: Новый зверь в коде GitHub
На годовщину R1 DeepSeek не стал устраивать громкий анонс с фейерверками. Вместо этого компания тихо обновила репозиторий FlashMLA на GitHub — это их инструмент для быстрого декодирования внимания Multi-head Latent Attention (MLA) на GPU Nvidia Hopper. Разработчики из Reddit (LocalLLaMA) покопались и нашли: там 28 упоминаний MODEL1 в 114 файлах!
Это не просто апгрейд V3.2 (который там зовут V32). MODEL1 — новая архитектура с унифицированным размером 512, поддержкой "Value Vector Position Awareness" и, похоже, интеграцией свежей "Engram" — системы условной памяти для контекстов в миллион токенов. Плюс оптимизация под будущие чипы Nvidia Blackwell. Китайцы явно копают под память и эффективность — чтобы модели тратили меньше ресурсов, но выдавали больше.
V4 на подходе: февральский сюрприз к Новому году
По данным The Information (через Reuters), DeepSeek готовит V4 к середине февраля — аккурат под Китайский Новый год (17 февраля). Внутренние тесты хвалят модель за превосходство над Anthropic и OpenAI в кодинге, особенно на длинных промптах. Engram здесь в главной роли: вместо перерасчёта фактов модель просто их "вспоминает" из базы. Дешево, сердито и эффективно.
Китайцы не комментируют — классика. Но ясно: после V3.1 (август) и V3.2 (декабрь, на уровне GPT-5) они не тормозят.
Шок года назад: Sputnik moment для Кремниевой долины
Вспомним контекст.
Январь 2025: R1 выходит, Marc Andreessen кричит про "момент Спутника". Американцы тратят миллиарды на инфраструктуру, DeepSeek — копейки, и результат на уровне.
"Sputnik moment" (момент "Спутника") — это метафора из холодной войны 1957 года, когда СССР запустил первый искусственный спутник Земли. Для США это стало шоком: они осознали технологическое отставание и резко нарастили инвестиции в науку, образование и космос, что привело к программе Apollo.
Год спустя китайцы не просто догоняют — они диктуют темп. Ирония? Пока Запад спорит о этике ИИ и регуляциях, Китай просто делает. Чуть хуже? Уже нет. Дешевле? Абсолютно.
Что дальше? Если V4 подтвердит слухи, Nvidia снова вспотеет. А мы будем следить, как китайская экспансия в ИИ только набирает обороты.