Китайская модель DeepSeek R1 уронила акции NVidia и наделала много шума в ИИ-мире за последнюю неделю. В чем причина?
Прошли выходные, и стало ясно, что на прошлой неделе на рынке AI была не просто очередная новость о релизе, а неплохо так жахнуло.
И нет, речь не о Stargate и их $500 млрд.
20 января китайцы из DeepSeek релизнули свою версию "думающей" модели R1, причем им удалось сделать ее почти такого же качества, как и OpenAI o1, а на некоторых тестах и лучше, см. сравнение на бенчмарках в таблице ниже. Кстати, на русском языке модель тоже очень хороша.
Из-за чего тогда шум?
Да, это могла бы быть просто очень хорошая модель, вот только есть несколько важнейших нюансов.
Модель требует в 20 (!) раз меньше железа и стоит, соответственно, в 20 раз дешевле для пользователей
Как этого добились - будет в конце статьи, но пока важен сам факт: внезапно оказалось, что несколькими техническими трюками (или чудесами, если угодно) можно радикально уменьшить потребности в оборудовании!
Акции NVIDIA, весь бизнес которой сейчас основан на огромных требованиях AI к серверам, ожидаемо улетели в минус - на скриншоте они получили примерно -11% на премаркете, в ходе торгов падение доходило и до -20%.
Такое ощущение, что скоро не только на TikTok наложат запрет в США :)
Модель полностью бесплатна при использовании через UI или мобильное приложение.
Приложение - топ-1 глобального AppStore и топ-1 в русском AppStore. Скачиваний и использования так много, что сообщается о локальных сбоях и ожидании ответов - впрочем, кажется, пока ничего глобального.
Модель полностью доступна в Open Source
При желании (и наличии железа) ее можно развернуть полностью у себя, в отличие от закрытой o1. Это большой плюс, в первую очередь с точки зрения безопасности, так как код можно проверить на наличие уязвимостей, а сама модель может быть установлена и использоваться в закрытом контуре, чтобы данных компании никуда не передавались. Кроме того, доступность кода сильно продвигает всю индустрию вперед.
Как удалось всего этого достичь?
Базово, ребята придумали сразу несколько крутых приемов (источник).
Уменьшение количества знаков в числах
Это может прозвучать странно, но вот так сложилось, что в AI в числах используют 32 знака. DeepSeek решили использовать только 8 - и сразу получили на 75% меньше памяти.
Использование не всех параметров сразу
Да, в модели 670 миллиардов параметров, но одновременно активны около 37 миллиардов - то есть он работает не как эксперт во всем, а как группа экспертов, которые переключаются по мере необходимости, но при этом каждый требует куда меньше памяти.
Есть что-то общее с AI-агентами, да :)
Multi-token system
Приведу почти буквальный перевод источника:
Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". DeepSeek читает целыми фразами сразу. В 2 раза быстрее, с точностью 90%. Когда вы обрабатываете миллиарды слов, это ВАЖНО.
Что в итоге?
Конечно, это не значит, что теперь OpenAI и другие гранды повержены - они все еще в строю, и быстро унаследуют идеи от DeepSeek. Но мы получили еще один крутой прецедент того, как талантливый стартап может внезапно взлететь на мировой арене - уверен, не последний. Скорее всего, DS станут еще одним общепризнанным мировым лидером AI: с ними уже начало проводить встречи правительство Китая, планируются инвестиции и т.п.
Изменит ли это глобально отрасль AI? Пожалуй, мы получим довольно сильное влияние на рынок оборудования и больше конкуренции в среднесрочной перспективе - безусловно, это плюс.
Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подро…
Недавно китайцы запустили "убийцу ChatGPT" – DeepSeek. Казалось бы, что ничего необычного в этом нет – еще одна нейросеть… но это только на первый взгляд
Уже слышали про DeepSeek? Эта китайская нейросеть ворвалась в топ, обрушила акции IT-гигантов и показала, что нейросети можно тренировать быстрее, дешевле, без топового железа, а западные компании, возможно, просто раздували AI-пузырь.
Мнением поделился вице-президент по продукту и развитию ИИ-подразделения Dropbox Морган Браун.
Жаркие споры вокруг успеха DeepSeek продолжаются. Подведем некоторые промежуточные итоги
Telegram — это не только популярный мессенджер, но и мощная платформа для заработка. Многие пользователи стремятся монетизировать свои каналы, однако не все хотят или могут размещать рекламу. В этой статье мы рассмотрим несколько эффективных способов получения дохода в Telegram без использования рекламных интеграций.
Китайская DeepSeek бросила вызов лидерам ИИ, выпустив нейросети с открытым кодом и чат-ботом-хитом App Store. Узнайте, как OpenAI, Трамп и Nvidia отреагировали на прорыв, который перевернул представление о затратах на ИИ и спровоцировал обвал акций.
В мире искусственного интеллекта сейчас много разговоров. Китайская компания DeepSeek представила свою модель R1. Многим кажется, что она может составить серьезную конкуренцию западным конкурентам, вроде OpenAI и их ChatGPT. Давайте посмотрим, что произошло и почему китайцы в этой гонке впереди.
Вы устали платить большие деньги за ИИ-сервисы, которые не оправдывают ожиданий? Или вам надоели бесконечные подписки и скрытые платежи за «инновационные» технологии, которые на деле не так уж эффективны? В этой статье я расскажу, как китайская компания DeepSeek поменяла правила игры, предложив мощную модель ИИ за меньшую цену и без скрытых затрат.…
Очень интересно и свежо, обязательно буду читать вас еще, очень жду новых постов!