Китайская модель DeepSeek R1 уронила акции NVidia и наделала много шума в ИИ-мире за последнюю неделю. В чем причина?
Прошли выходные, и стало ясно, что на прошлой неделе на рынке AI была не просто очередная новость о релизе, а неплохо так жахнуло.
И нет, речь не о Stargate и их $500 млрд.
20 января китайцы из DeepSeek релизнули свою версию "думающей" модели R1, причем им удалось сделать ее почти такого же качества, как и OpenAI o1, а на некоторых тестах и лучше, см. сравнение на бенчмарках в таблице ниже. Кстати, на русском языке модель тоже очень хороша.
Из-за чего тогда шум?
Да, это могла бы быть просто очень хорошая модель, вот только есть несколько важнейших нюансов.
Модель требует в 20 (!) раз меньше железа и стоит, соответственно, в 20 раз дешевле для пользователей
Как этого добились - будет в конце статьи, но пока важен сам факт: внезапно оказалось, что несколькими техническими трюками (или чудесами, если угодно) можно радикально уменьшить потребности в оборудовании!
Акции NVIDIA, весь бизнес которой сейчас основан на огромных требованиях AI к серверам, ожидаемо улетели в минус - на скриншоте они получили примерно -11% на премаркете, в ходе торгов падение доходило и до -20%.
Такое ощущение, что скоро не только на TikTok наложат запрет в США :)
Модель полностью бесплатна при использовании через UI или мобильное приложение.
Приложение - топ-1 глобального AppStore и топ-1 в русском AppStore. Скачиваний и использования так много, что сообщается о локальных сбоях и ожидании ответов - впрочем, кажется, пока ничего глобального.
Модель полностью доступна в Open Source
При желании (и наличии железа) ее можно развернуть полностью у себя, в отличие от закрытой o1. Это большой плюс, в первую очередь с точки зрения безопасности, так как код можно проверить на наличие уязвимостей, а сама модель может быть установлена и использоваться в закрытом контуре, чтобы данных компании никуда не передавались. Кроме того, доступность кода сильно продвигает всю индустрию вперед.
Как удалось всего этого достичь?
Базово, ребята придумали сразу несколько крутых приемов (источник).
Уменьшение количества знаков в числах
Это может прозвучать странно, но вот так сложилось, что в AI в числах используют 32 знака. DeepSeek решили использовать только 8 - и сразу получили на 75% меньше памяти.
Использование не всех параметров сразу
Да, в модели 670 миллиардов параметров, но одновременно активны около 37 миллиардов - то есть он работает не как эксперт во всем, а как группа экспертов, которые переключаются по мере необходимости, но при этом каждый требует куда меньше памяти.
Есть что-то общее с AI-агентами, да :)
Multi-token system
Приведу почти буквальный перевод источника:
Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". DeepSeek читает целыми фразами сразу. В 2 раза быстрее, с точностью 90%. Когда вы обрабатываете миллиарды слов, это ВАЖНО.
Что в итоге?
Конечно, это не значит, что теперь OpenAI и другие гранды повержены - они все еще в строю, и быстро унаследуют идеи от DeepSeek. Но мы получили еще один крутой прецедент того, как талантливый стартап может внезапно взлететь на мировой арене - уверен, не последний. Скорее всего, DS станут еще одним общепризнанным мировым лидером AI: с ними уже начало проводить встречи правительство Китая, планируются инвестиции и т.п.
Изменит ли это глобально отрасль AI? Пожалуй, мы получим довольно сильное влияние на рынок оборудования и больше конкуренции в среднесрочной перспективе - безусловно, это плюс.
Уже слышали про DeepSeek? Эта китайская нейросеть ворвалась в топ, обрушила акции IT-гигантов и показала, что нейросети можно тренировать быстрее, дешевле, без топового железа, а западные компании, возможно, просто раздували AI-пузырь.
Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подро…
Альткоин Hedera (HBAR) движется в устойчивом нисходящем тренде, но теперь медвежий импульс начинает ослабевать. Чтобы развернуть тренд, криптовалюте необходимо преодолеть ключевое сопротивление
Её чат-бот до сих пор первый в списке самых скачиваемых бесплатных приложений в американском App Store.
Мнением поделился вице-президент по продукту и развитию ИИ-подразделения Dropbox Морган Браун.
Успех DeepSeek без преувеличения ошеломил и вызвал бурные дискуссии во всем техно сообществе. Расскажу, в чем причина острой реакции, и какие есть точки зрения на вопрос.
Соцсети давно сменили кроткое: «посмотрите, как бывает» на подавляющее: «смотрите как надо». Причем, если раньше эти лозунги носили рекомендательный характер, то сейчас ты либо следуешь тренду, каждый месяц новому, либо умираешь в отстое.
Очень интересно и свежо, обязательно буду читать вас еще, очень жду новых постов!