Китайская модель DeepSeek R1 уронила акции NVidia и наделала много шума в ИИ-мире за последнюю неделю. В чем причина?

Прошли выходные, и стало ясно, что на прошлой неделе на рынке AI была не просто очередная новость о релизе, а неплохо так жахнуло.
И нет, речь не о Stargate и их $500 млрд.
20 января китайцы из DeepSeek релизнули свою версию "думающей" модели R1, причем им удалось сделать ее почти такого же качества, как и OpenAI o1, а на некоторых тестах и лучше, см. сравнение на бенчмарках в таблице ниже. Кстати, на русском языке модель тоже очень хороша.

Да, это могла бы быть просто очень хорошая модель, вот только есть несколько важнейших нюансов.

Соотношение ресурсов DeepSeek и известных грандов AI примерно вот такое

Как этого добились - будет в конце статьи, но пока важен сам факт: внезапно оказалось, что несколькими техническими трюками (или чудесами, если угодно) можно радикально уменьшить потребности в оборудовании!

Акции NVIDIA, весь бизнес которой сейчас основан на огромных требованиях AI к серверам, ожидаемо улетели в минус - на скриншоте они получили примерно -11% на премаркете, в ходе торгов падение доходило и до -20%.

Такое ощущение, что скоро не только на TikTok наложат запрет в США :)

Приложение - топ-1 глобального AppStore и топ-1 в русском AppStore. Скачиваний и использования так много, что сообщается о локальных сбоях и ожидании ответов - впрочем, кажется, пока ничего глобального.

При желании (и наличии железа) ее можно развернуть полностью у себя, в отличие от закрытой o1. Это большой плюс, в первую очередь с точки зрения безопасности, так как код можно проверить на наличие уязвимостей, а сама модель может быть установлена и использоваться в закрытом контуре, чтобы данных компании никуда не передавались. Кроме того, доступность кода сильно продвигает всю индустрию вперед.

Китайская модель DeepSeek R1 уронила акции NVidia и наделала много шума в ИИ-мире за последнюю неделю. В чем причина?

Базово, ребята придумали сразу несколько крутых приемов (источник).

Это может прозвучать странно, но вот так сложилось, что в AI в числах используют 32 знака. DeepSeek решили использовать только 8 - и сразу получили на 75% меньше памяти.

Да, в модели 670 миллиардов параметров, но одновременно активны около 37 миллиардов - то есть он работает не как эксперт во всем, а как группа экспертов, которые переключаются по мере необходимости, но при этом каждый требует куда меньше памяти.

Есть что-то общее с AI-агентами, да :)

Приведу почти буквальный перевод источника:

Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". DeepSeek читает целыми фразами сразу. В 2 раза быстрее, с точностью 90%. Когда вы обрабатываете миллиарды слов, это ВАЖНО.

Конечно, это не значит, что теперь OpenAI и другие гранды повержены - они все еще в строю, и быстро унаследуют идеи от DeepSeek. Но мы получили еще один крутой прецедент того, как талантливый стартап может внезапно взлететь на мировой арене - уверен, не последний. Скорее всего, DS станут еще одним общепризнанным мировым лидером AI: с ними уже начало проводить встречи правительство Китая, планируются инвестиции и т.п.

Изменит ли это глобально отрасль AI? Пожалуй, мы получим довольно сильное влияние на рынок оборудования и больше конкуренции в среднесрочной перспективе - безусловно, это плюс.

Telegram-канал про ИИ в бизнесе

Китайская модель DeepSeek R1 уронила акции NVidia и наделала много шума в ИИ-мире за последнюю неделю. В чем причина?

Из-за чего тогда шум?

Модель требует в 20 (!) раз меньше железа и стоит, соответственно, в 20 раз дешевле для пользователей

Модель полностью бесплатна при использовании через UI или мобильное приложение.

Модель полностью доступна в Open Source

Как удалось всего этого достичь?

Уменьшение количества знаков в числах

Использование не всех параметров сразу

Multi-token system

Что в итоге?