Шуруповёрт из Cyberpunk 2077
Роботы Figure на кухне
Nothing Phone 3a
Робот-человек
Nikola всё
Uber для охраны

DeepSeek: не просто хайп, а новые правила игры

Пост в X (ранее Twitter) от имени аккаунта-пародии основателя DeepSeek<br />
Пост в X (ранее Twitter) от имени аккаунта-пародии основателя DeepSeek

Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подробнее, почему она наделала так много шума.

Пока гиганты вроде OpenAI и Anthropic соревнуются в размерах инвестиций и громких заявлениях, небольшая команда из Китая показала, что создание конкурентоспособной ИИ-модели не обязательно требует миллиардных вложений. DeepSeek представила сразу две модели: DeepSeek V3 и DeepSeek R1, каждая из которых заслуживает отдельного внимания.

DeepSeek V3: маленькая революция

Помните времена, когда Сэм Альтман (глава OpenAI) говорил о миллиардах долларов, необходимых для тренировки GPT-4? DeepSeek только что разрушил этот миф. Их новая модель, созданная за скромные 5.5 миллионов долларов, демонстрирует результаты, которые заставляют задуматься: действительно ли нам нужны такие гигантские инвестиции в ИИ?

По состоянию на 27.01.2025 модель DeepSeek-R1 в топе <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Flmarena.ai%2F&postId=1778179" rel="nofollow noreferrer noopener" target="_blank">Chatbot Arena</a> и опережает «думающую» модель <a href="https://vc.ru/ai/1529609-chto-takoe-intellekt-i-pochemu-on-iskusstvennyi" rel="nofollow noreferrer noopener" target="_blank">o1 от OpenAI</a><br />
По состоянию на 27.01.2025 модель DeepSeek-R1 в топе Chatbot Arena и опережает «думающую» модель o1 от OpenAI

Реакция рынка

Понятно, что поскольку OpenAI был первопроходцем в этой области, то, логично, что им потребовалось больше ресурсов. Однако, это всё равно заставило инвесторов задуматься.

Компания Nvidia потеряла почти 600 миллиардов долларов, что является крупнейшим однодневным убытком в истории США. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.cnbc.com%2F2025%2F01%2F27%2Fnvidia-sheds-almost-600-billion-in-market-cap-biggest-drop-ever.html%3Fqsearchterm%3Dnvidia%2520sheds&postId=1778179" rel="nofollow noreferrer noopener" target="_blank">CNBC</a><br />
Компания Nvidia потеряла почти 600 миллиардов долларов, что является крупнейшим однодневным убытком в истории США. Источник: CNBC

Новость о DeepSeek V3 вызвала настоящее землетрясение на фондовом рынке. Инвесторы начали задавать неудобные вопросы:

  • Почему OpenAI потратила миллиарды на разработку, если можно достичь схожих результатов за миллионы?
  • Насколько оправданы текущие оценки стоимости ИИ-компаний?
  • Не переоценен ли потенциал западных технологических гигантов?

Любопытно то, что больше всего пострадала компания Nvidia — поставщик и технический партнер многих компаний, занимающихся искусственным интеллектом.

Котировки Nvidia ($NVDA) падали почти до -15% в моменте<br />
Котировки Nvidia ($NVDA) падали почти до -15% в моменте

Почему так дёшево?

Команда DeepSeek использовала несколько подходов, которые позволили значительно уменьшить расходы на обучение языковой модели:

  • Оптимизированная архитектура, требующая меньше вычислительных ресурсов — Mixture of Experts (MoE)
  • Использование синтетически сгенерированных данных для обучения — это позволило получить намного больше данных для обучения значительно дешевле

Команда DeepSeek смогла добиться таких впечатляющих результатов во многом благодаря тому, что компания использует модель с открытым исходным кодом (open-source), а если быть точнее — с открытыми весами (т.н. open-weights).

Это дало им преимущество на старте:

Они смогли воспользоваться предыдущими наработками других открытых моделей. Ранее Meta* потратила сотни миллионов долларов на открытые исследования, включая модель LLaMa. После этого множество китайских компаний, такие как Alibaba и Tencent, также начали разрабатывать свои модели, в том числе и DeepSeek.

Несколько экспертов в одном

Одним из ключевых факторов, позволивших DeepSeek создать конкурентоспособную модель за относительно небольшую сумму, стала архитектура Mixture of Experts (MoE). Этот подход уже доказал свою эффективность, и ярким примером его успешной реализации является модель Mixtral от Mistral AI.

Один из секретов успеха DeepSeek — использование технологии Mixture of Experts (MoE). Этот подход позволяет модели работать умнее, а не просто становиться больше и дороже. Вдохновением для DeepSeek стала модель Mixtral от Mistral AI, уже показавшая, как можно повысить эффективность нейросетей без колоссальных затрат.

На самом деле, работу в этом направлении DeepSeek работал уже как минимум год. В своей публикации от 11 января 2024 года они предлагают собственный подход, который требует меньше вычислительных ресурсов:

Сравнение DeepSeekMoE с другими открытыми моделями<br />
Сравнение DeepSeekMoE с другими открытыми моделями

Реальная стоимость инноваций

Однако, я бы поставил под сомнение громкое заявление о том, что модель удалось обучить за в 5.5 миллионов долларов. Дело в том, что DeepSeek основана и поддерживается китайским хедж-фондом High-Flyer, у которого очень много своих GPU. Они используются для трейдинга, и каждый день генерируют новые предсказания для рынка.

Кроме того, обучение крупных языковых моделей включает множество экспериментов. Не исключено, что названная сумма отражает только успешные из них, тогда как информация о неудачных не раскрывается.

Конфиденциальность данных

Некоторые люди резонно поднимают вопрос конфиденциальности данных при работе с новой моделью. Хотя DeepSeek позиционирует свои модели как открытые и бесплатные, нет гарантий, что они не собирают пользовательские данные.

Учитывая, что компания базируется в Китае, это вызывает дополнительную обеспокоенность у западных пользователей и компаний. Впрочем, OpenAI и другие крупные игроки также собирают данные для дообучения своих моделей, так что в этом смысле разница скорее в юрисдикции, а не в самой практике.

К тому же, в отличии от аналогичных моделей, модели DeepSeek может запустить любой желающий, поэтому я не вижу оснований для серьезных опасений.

DeepSeek R1: прозрачность процесса мышления

Особого внимания заслуживает модель DeepSeek R1, позиционируемая как альтернатива o1 от OpenAI.

Ключевое преимущество — полная прозрачность процесса «мышления» модели. В отличие от многих конкурентов, где процесс принятия решений остается «черным ящиком», DeepSeek R1 показывает каждый шаг своих рассуждений, что особенно ценно для исследователей и разработчиков.

«Мыслительный процесс» модели перед ответом пользователю<br />
«Мыслительный процесс» модели перед ответом пользователю

Это потенциально открывает огромный простор для творчества и улучшений, по масштабу сравнимый с тем, который дала открытая модель LLaMa 3 в свое время.

Доступность и открытость

DeepSeek делает искуственный интеллект более доступным, аналогично тому как это сделали проекты LLaMa и Mistral в свое время. Веса моделей находятся в открытом доступе, что позволяет:

  • Дообучить модель и адаптировать ее под специфические задачи
  • Развивать локальные решения на базе технологии — не нужно тратить огромные ресурсы на обучение фундаментальной модели

При этом открытость моделей DeepSeek вызывает вопросы. Хотя компания публикует веса (weights) своих нейросетей, доступ к полным обучающим данным и алгоритмам оптимизации остается ограниченным. Это напоминает стратегию Meta с LLaMa: «открытость» привлекает разработчиков, но ключевые технологии сохраняются внутри компании.

Будущее ИИ и влияние на рынок

Несмотря на впечатляющие результаты DeepSeek, эксперты считают, что ChatGPT пока сохранит лидерство в массовом сегменте. Однако появление таких моделей может привестик снижению стоимости сервисов с искусственным интеллектом.

На данный момент максимальная подписка на ChatGPT стоит 200 долларов в месяц. Если будет больше моделей, которые могут выдавать результат, сравнимый с ChatGPT за значительно меньшую стоимость, то это, безусловно, сделает применение искуственного интеллекта еще более широким.

Не всем удается забежать в уходящий поезд

DeepSeek: не просто хайп, а новые правила игры

Сейчас, из-за того, что модель стала очень популярная, сервера компании испытывают серьезную нагрузку, поэтому воспользоваться этой моделью не так-то просто. Но поскольку модель открытая, то я думаю в скором времени появятся варианты от других провайдеров, вроде Together.ai, Deepinfra и других:

Варианты провайдеров модели DeepSeek V3 в <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenrouter.ai%2Fdeepseek%2Fdeepseek-chat&postId=1778179" rel="nofollow noreferrer noopener" target="_blank">OpenRouter</a><br />
Варианты провайдеров модели DeepSeek V3 в OpenRouter

Если вам понравилась эта статья, буду благодарен, если поставите лайк 🔥 и напишите комментарий — так я пойму, что на подобные темы стоит писать больше.

В своем Telegram-блоге «Код без тайн» я пишу не только об искусственном интеллекте, а также о веб-разработке, информатике и других технологиях, которые меня вдохновляют.

* Meta признана экстремистской организацией в России

2020
66
11
реклама
разместить
39 комментариев

Китайцы молодцы, мне понравилась сеть. Жду когда можно будет и картинки генерировать )))

3
1
1

По картинкам есть китайские компании, которые уже хороший результат дают. По видео, кстати, тоже — https://hailuoai.video/ буквально недавно аналог SORA выпустили

3

Так, патриотически настроенные комментаторы переживающие за Европу и ЯМЫАлюминий - вы че не переживаете что и тындыкс и есбер и рядом не лежат с китайским ИИ??! Где народный гнев пролетариев!?

3

Комментарий удалён автором поста

Видимо из-за того, что deepseek мусолится во всех пабликах несколько дней я и не могу им пользоваться уже - пишет The server is busy. Please try again later.

3

Да, через OpenRouter можно платно воспользоваться у других провайдеров. Иначе остается только ждать 🤷‍♂️

Кстати, заметил что V3 работает чаще, а вот R1 — не отвечает

Туше!)
Через раз или два пытается, а потом вылетает снова - чувак, я супер занят, покури в сторонке.

Раскрывать всегда
Феномен DeepSeek: разбираем причины шума вокруг нейросети
Феномен DeepSeek: разбираем причины шума вокруг нейросети

Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого чел…

11
реклама
разместить
🐋 DeepSeek: китайская нейросеть, которая только что хакнула рынок AI

Уже слышали про DeepSeek? Эта китайская нейросеть ворвалась в топ, обрушила акции IT-гигантов и показала, что нейросети можно тренировать быстрее, дешевле, без топового железа, а западные компании, возможно, просто раздували AI-пузырь.

🐋 DeepSeek: китайская нейросеть, которая только что хакнула рынок AI
1212
33
11
ФСА (Росаккредитация) не имеет сроков рассмотрения корректирующих действий для восстановления аккредитации

У Федеральной службы по аккредитации до сих пор нет регламентирующих сроков рассмотрения отчета о корректирующих действиях аккредитованных лиц, при проверке которых выявлены несоответствия критериям аккредитации и введена приостановка статуса аккредитованного лица.

Нейросеть DeepSeek: что умеет и как конкурирует с ChatGPT

Китайские модели кодят, «говорят» на русском и зарождают сомнения в эффективности крупных вложений в ИИ.

Нейросеть DeepSeek: что умеет и как конкурирует с ChatGPT
2121
88
22
Почему рано хоронить OpenAI и превозносить DeepSeek?

В техно и финансовых кругах развернулась дискуссия (если не сказать паника). Шутка ли, что можно вот так вот создать модель с 20 раз дешевле, да и еще в условиях санкций? Но не все так просто. Расскажу, в чем дело

Лаг между "эффектом доступа" и "эффектом производительности". <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblog.heim.xyz%2Fdeepseek-what-the-headlines-miss%2F&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
1010
DeepSeek: как китайский стартап «взорвал» рынок ИИ и обошёл гигантов
DeepSeek: как китайский стартап «взорвал» рынок ИИ и обошёл гигантов
66
11
Фестиваль искусств на Луне

ИИ тоже может принять участие в фестивале искусств на Луне, но проблематично, в его нынешнем состоянии, "создать" произведение искусства в том же смысле, что и человек. ИИ не обладает эмоциями, интуицией или личным опытом, которые являются ключевыми компонентами художественного творчества. ИИ пока только может генерировать изображения, музыку, текс…

Тихая революция: китайская нейросеть DeepSeek R1 бесплатная, без VPN и лучше ChatGPT

На рынке нейросетей лидерство традиционно удерживает компания OpenAI. Но 20 января 2025 года ситуация кардинально изменилась. На рынке появилась новая open source языковая модель DeepSeek R1, которая дает результаты на уровне OpenAI o1, при этом в 4 раза быстрее, имеет доступ к интернету и умеет работать с документами.

1515
77
[]