DeepSeek: не просто хайп, а новые правила игры

Пост в X (ранее Twitter) от имени аккаунта-пародии основателя DeepSeek<br />

Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подробнее, почему она наделала так много шума.

Пока гиганты вроде OpenAI и Anthropic соревнуются в размерах инвестиций и громких заявлениях, небольшая команда из Китая показала, что создание конкурентоспособной ИИ-модели не обязательно требует миллиардных вложений. DeepSeek представила сразу две модели: DeepSeek V3 и DeepSeek R1, каждая из которых заслуживает отдельного внимания.

Помните времена, когда Сэм Альтман (глава OpenAI) говорил о миллиардах долларов, необходимых для тренировки GPT-4? DeepSeek только что разрушил этот миф. Их новая модель, созданная за скромные 5.5 миллионов долларов, демонстрирует результаты, которые заставляют задуматься: действительно ли нам нужны такие гигантские инвестиции в ИИ?

По состоянию на 27.01.2025 модель DeepSeek-R1 в топе <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Flmarena.ai%2F&postId=1778179" rel="nofollow noreferrer noopener" target="_blank">Chatbot Arena</a> и опережает «думающую» модель <a href="https://vc.ru/ai/1529609-chto-takoe-intellekt-i-pochemu-on-iskusstvennyi" rel="nofollow noreferrer noopener" target="_blank">o1 от OpenAI</a><br />

Понятно, что поскольку OpenAI был первопроходцем в этой области, то, логично, что им потребовалось больше ресурсов. Однако, это всё равно заставило инвесторов задуматься.

Компания Nvidia потеряла почти 600 миллиардов долларов, что является крупнейшим однодневным убытком в истории США. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.cnbc.com%2F2025%2F01%2F27%2Fnvidia-sheds-almost-600-billion-in-market-cap-biggest-drop-ever.html%3Fqsearchterm%3Dnvidia%2520sheds&postId=1778179" rel="nofollow noreferrer noopener" target="_blank">CNBC</a><br />

Новость о DeepSeek V3 вызвала настоящее землетрясение на фондовом рынке. Инвесторы начали задавать неудобные вопросы:

Почему OpenAI потратила миллиарды на разработку, если можно достичь схожих результатов за миллионы?
Насколько оправданы текущие оценки стоимости ИИ-компаний?
Не переоценен ли потенциал западных технологических гигантов?

Любопытно то, что больше всего пострадала компания Nvidia — поставщик и технический партнер многих компаний, занимающихся искусственным интеллектом.

Котировки Nvidia ($NVDA) падали почти до -15% в моменте<br />

Команда DeepSeek использовала несколько подходов, которые позволили значительно уменьшить расходы на обучение языковой модели:

Оптимизированная архитектура, требующая меньше вычислительных ресурсов — Mixture of Experts (MoE)
Использование синтетически сгенерированных данных для обучения — это позволило получить намного больше данных для обучения значительно дешевле

Команда DeepSeek смогла добиться таких впечатляющих результатов во многом благодаря тому, что компания использует модель с открытым исходным кодом (open-source), а если быть точнее — с открытыми весами (т.н. open-weights).

Это дало им преимущество на старте:

Они смогли воспользоваться предыдущими наработками других открытых моделей. Ранее Meta* потратила сотни миллионов долларов на открытые исследования, включая модель LLaMa. После этого множество китайских компаний, такие как Alibaba и Tencent, также начали разрабатывать свои модели, в том числе и DeepSeek.

Одним из ключевых факторов, позволивших DeepSeek создать конкурентоспособную модель за относительно небольшую сумму, стала архитектура Mixture of Experts (MoE). Этот подход уже доказал свою эффективность, и ярким примером его успешной реализации является модель Mixtral от Mistral AI.

Один из секретов успеха DeepSeek — использование технологии Mixture of Experts (MoE). Этот подход позволяет модели работать умнее, а не просто становиться больше и дороже. Вдохновением для DeepSeek стала модель Mixtral от Mistral AI, уже показавшая, как можно повысить эффективность нейросетей без колоссальных затрат.

На самом деле, работу в этом направлении DeepSeek работал уже как минимум год. В своей публикации от 11 января 2024 года они предлагают собственный подход, который требует меньше вычислительных ресурсов:

arxiv.org

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Сравнение DeepSeekMoE с другими открытыми моделями<br />

Однако, я бы поставил под сомнение громкое заявление о том, что модель удалось обучить за в 5.5 миллионов долларов. Дело в том, что DeepSeek основана и поддерживается китайским хедж-фондом High-Flyer, у которого очень много своих GPU. Они используются для трейдинга, и каждый день генерируют новые предсказания для рынка.

Кроме того, обучение крупных языковых моделей включает множество экспериментов. Не исключено, что названная сумма отражает только успешные из них, тогда как информация о неудачных не раскрывается.

Некоторые люди резонно поднимают вопрос конфиденциальности данных при работе с новой моделью. Хотя DeepSeek позиционирует свои модели как открытые и бесплатные, нет гарантий, что они не собирают пользовательские данные.

Учитывая, что компания базируется в Китае, это вызывает дополнительную обеспокоенность у западных пользователей и компаний. Впрочем, OpenAI и другие крупные игроки также собирают данные для дообучения своих моделей, так что в этом смысле разница скорее в юрисдикции, а не в самой практике.

К тому же, в отличии от аналогичных моделей, модели DeepSeek может запустить любой желающий, поэтому я не вижу оснований для серьезных опасений.

Особого внимания заслуживает модель DeepSeek R1, позиционируемая как альтернатива o1 от OpenAI.

Ключевое преимущество — полная прозрачность процесса «мышления» модели. В отличие от многих конкурентов, где процесс принятия решений остается «черным ящиком», DeepSeek R1 показывает каждый шаг своих рассуждений, что особенно ценно для исследователей и разработчиков.

«Мыслительный процесс» модели перед ответом пользователю<br />

Это потенциально открывает огромный простор для творчества и улучшений, по масштабу сравнимый с тем, который дала открытая модель LLaMa 3 в свое время.

DeepSeek делает искуственный интеллект более доступным, аналогично тому как это сделали проекты LLaMa и Mistral в свое время. Веса моделей находятся в открытом доступе, что позволяет:

Дообучить модель и адаптировать ее под специфические задачи
Развивать локальные решения на базе технологии — не нужно тратить огромные ресурсы на обучение фундаментальной модели

При этом открытость моделей DeepSeek вызывает вопросы. Хотя компания публикует веса (weights) своих нейросетей, доступ к полным обучающим данным и алгоритмам оптимизации остается ограниченным. Это напоминает стратегию Meta с LLaMa: «открытость» привлекает разработчиков, но ключевые технологии сохраняются внутри компании.

Несмотря на впечатляющие результаты DeepSeek, эксперты считают, что ChatGPT пока сохранит лидерство в массовом сегменте. Однако появление таких моделей может привестик снижению стоимости сервисов с искусственным интеллектом.

На данный момент максимальная подписка на ChatGPT стоит 200 долларов в месяц. Если будет больше моделей, которые могут выдавать результат, сравнимый с ChatGPT за значительно меньшую стоимость, то это, безусловно, сделает применение искуственного интеллекта еще более широким.

DeepSeek: не просто хайп, а новые правила игры

Сейчас, из-за того, что модель стала очень популярная, сервера компании испытывают серьезную нагрузку, поэтому воспользоваться этой моделью не так-то просто. Но поскольку модель открытая, то я думаю в скором времени появятся варианты от других провайдеров, вроде Together.ai, Deepinfra и других:

Варианты провайдеров модели DeepSeek V3 в <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenrouter.ai%2Fdeepseek%2Fdeepseek-chat&postId=1778179" rel="nofollow noreferrer noopener" target="_blank">OpenRouter</a><br />

Если вам понравилась эта статья, буду благодарен, если поставите лайк 🔥 и напишите комментарий — так я пойму, что на подобные темы стоит писать больше.

В своем Telegram-блоге «Код без тайн» я пишу не только об искусственном интеллекте, а также о веб-разработке, информатике и других технологиях, которые меня вдохновляют.

t.me

Код без тайн

* Meta признана экстремистской организацией в России

39 комментариев

DzenTarelka

29 янв

Китайцы молодцы, мне понравилась сеть. Жду когда можно будет и картинки генерировать )))

Ответить

Алексей Иванов

Автор

По картинкам есть китайские компании, которые уже хороший результат дают. По видео, кстати, тоже — https://hailuoai.video/ буквально недавно аналог SORA выпустили

hailuoai.video

Hailuo AI: Transform Idea to Visual with AI

Unknown

Так, патриотически настроенные комментаторы переживающие за Европу и ЯМЫАлюминий - вы че не переживаете что и тындыкс и есбер и рядом не лежат с китайским ИИ??! Где народный гнев пролетариев!?

Комментарий удалён автором поста

Kaz

Видимо из-за того, что deepseek мусолится во всех пабликах несколько дней я и не могу им пользоваться уже - пишет The server is busy. Please try again later.