DeepSeek: не просто хайп, а новые правила игры
Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подробнее, почему она наделала так много шума.
Пока гиганты вроде OpenAI и Anthropic соревнуются в размерах инвестиций и громких заявлениях, небольшая команда из Китая показала, что создание конкурентоспособной ИИ-модели не обязательно требует миллиардных вложений. DeepSeek представила сразу две модели: DeepSeek V3 и DeepSeek R1, каждая из которых заслуживает отдельного внимания.
DeepSeek V3: маленькая революция
Помните времена, когда Сэм Альтман (глава OpenAI) говорил о миллиардах долларов, необходимых для тренировки GPT-4? DeepSeek только что разрушил этот миф. Их новая модель, созданная за скромные 5.5 миллионов долларов, демонстрирует результаты, которые заставляют задуматься: действительно ли нам нужны такие гигантские инвестиции в ИИ?
Реакция рынка
Понятно, что поскольку OpenAI был первопроходцем в этой области, то, логично, что им потребовалось больше ресурсов. Однако, это всё равно заставило инвесторов задуматься.
Новость о DeepSeek V3 вызвала настоящее землетрясение на фондовом рынке. Инвесторы начали задавать неудобные вопросы:
- Почему OpenAI потратила миллиарды на разработку, если можно достичь схожих результатов за миллионы?
- Насколько оправданы текущие оценки стоимости ИИ-компаний?
- Не переоценен ли потенциал западных технологических гигантов?
Любопытно то, что больше всего пострадала компания Nvidia — поставщик и технический партнер многих компаний, занимающихся искусственным интеллектом.
Почему так дёшево?
Команда DeepSeek использовала несколько подходов, которые позволили значительно уменьшить расходы на обучение языковой модели:
- Оптимизированная архитектура, требующая меньше вычислительных ресурсов — Mixture of Experts (MoE)
- Использование синтетически сгенерированных данных для обучения — это позволило получить намного больше данных для обучения значительно дешевле
Команда DeepSeek смогла добиться таких впечатляющих результатов во многом благодаря тому, что компания использует модель с открытым исходным кодом (open-source), а если быть точнее — с открытыми весами (т.н. open-weights).
Это дало им преимущество на старте:
Они смогли воспользоваться предыдущими наработками других открытых моделей. Ранее Meta* потратила сотни миллионов долларов на открытые исследования, включая модель LLaMa. После этого множество китайских компаний, такие как Alibaba и Tencent, также начали разрабатывать свои модели, в том числе и DeepSeek.
Несколько экспертов в одном
Одним из ключевых факторов, позволивших DeepSeek создать конкурентоспособную модель за относительно небольшую сумму, стала архитектура Mixture of Experts (MoE). Этот подход уже доказал свою эффективность, и ярким примером его успешной реализации является модель Mixtral от Mistral AI.
Один из секретов успеха DeepSeek — использование технологии Mixture of Experts (MoE). Этот подход позволяет модели работать умнее, а не просто становиться больше и дороже. Вдохновением для DeepSeek стала модель Mixtral от Mistral AI, уже показавшая, как можно повысить эффективность нейросетей без колоссальных затрат.
На самом деле, работу в этом направлении DeepSeek работал уже как минимум год. В своей публикации от 11 января 2024 года они предлагают собственный подход, который требует меньше вычислительных ресурсов:
Реальная стоимость инноваций
Однако, я бы поставил под сомнение громкое заявление о том, что модель удалось обучить за в 5.5 миллионов долларов. Дело в том, что DeepSeek основана и поддерживается китайским хедж-фондом High-Flyer, у которого очень много своих GPU. Они используются для трейдинга, и каждый день генерируют новые предсказания для рынка.
Кроме того, обучение крупных языковых моделей включает множество экспериментов. Не исключено, что названная сумма отражает только успешные из них, тогда как информация о неудачных не раскрывается.
Конфиденциальность данных
Некоторые люди резонно поднимают вопрос конфиденциальности данных при работе с новой моделью. Хотя DeepSeek позиционирует свои модели как открытые и бесплатные, нет гарантий, что они не собирают пользовательские данные.
Учитывая, что компания базируется в Китае, это вызывает дополнительную обеспокоенность у западных пользователей и компаний. Впрочем, OpenAI и другие крупные игроки также собирают данные для дообучения своих моделей, так что в этом смысле разница скорее в юрисдикции, а не в самой практике.
К тому же, в отличии от аналогичных моделей, модели DeepSeek может запустить любой желающий, поэтому я не вижу оснований для серьезных опасений.
DeepSeek R1: прозрачность процесса мышления
Особого внимания заслуживает модель DeepSeek R1, позиционируемая как альтернатива o1 от OpenAI.
Ключевое преимущество — полная прозрачность процесса «мышления» модели. В отличие от многих конкурентов, где процесс принятия решений остается «черным ящиком», DeepSeek R1 показывает каждый шаг своих рассуждений, что особенно ценно для исследователей и разработчиков.
Это потенциально открывает огромный простор для творчества и улучшений, по масштабу сравнимый с тем, который дала открытая модель LLaMa 3 в свое время.
Доступность и открытость
DeepSeek делает искуственный интеллект более доступным, аналогично тому как это сделали проекты LLaMa и Mistral в свое время. Веса моделей находятся в открытом доступе, что позволяет:
- Дообучить модель и адаптировать ее под специфические задачи
- Развивать локальные решения на базе технологии — не нужно тратить огромные ресурсы на обучение фундаментальной модели
При этом открытость моделей DeepSeek вызывает вопросы. Хотя компания публикует веса (weights) своих нейросетей, доступ к полным обучающим данным и алгоритмам оптимизации остается ограниченным. Это напоминает стратегию Meta с LLaMa: «открытость» привлекает разработчиков, но ключевые технологии сохраняются внутри компании.
Будущее ИИ и влияние на рынок
Несмотря на впечатляющие результаты DeepSeek, эксперты считают, что ChatGPT пока сохранит лидерство в массовом сегменте. Однако появление таких моделей может привестик снижению стоимости сервисов с искусственным интеллектом.
На данный момент максимальная подписка на ChatGPT стоит 200 долларов в месяц. Если будет больше моделей, которые могут выдавать результат, сравнимый с ChatGPT за значительно меньшую стоимость, то это, безусловно, сделает применение искуственного интеллекта еще более широким.
Не всем удается забежать в уходящий поезд
Сейчас, из-за того, что модель стала очень популярная, сервера компании испытывают серьезную нагрузку, поэтому воспользоваться этой моделью не так-то просто. Но поскольку модель открытая, то я думаю в скором времени появятся варианты от других провайдеров, вроде Together.ai, Deepinfra и других:
Если вам понравилась эта статья, буду благодарен, если поставите лайк 🔥 и напишите комментарий — так я пойму, что на подобные темы стоит писать больше.
В своем Telegram-блоге «Код без тайн» я пишу не только об искусственном интеллекте, а также о веб-разработке, информатике и других технологиях, которые меня вдохновляют.
* Meta признана экстремистской организацией в России
Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого чел…
Уже слышали про DeepSeek? Эта китайская нейросеть ворвалась в топ, обрушила акции IT-гигантов и показала, что нейросети можно тренировать быстрее, дешевле, без топового железа, а западные компании, возможно, просто раздували AI-пузырь.
У Федеральной службы по аккредитации до сих пор нет регламентирующих сроков рассмотрения отчета о корректирующих действиях аккредитованных лиц, при проверке которых выявлены несоответствия критериям аккредитации и введена приостановка статуса аккредитованного лица.
Китайские модели кодят, «говорят» на русском и зарождают сомнения в эффективности крупных вложений в ИИ.
В техно и финансовых кругах развернулась дискуссия (если не сказать паника). Шутка ли, что можно вот так вот создать модель с 20 раз дешевле, да и еще в условиях санкций? Но не все так просто. Расскажу, в чем дело
ИИ тоже может принять участие в фестивале искусств на Луне, но проблематично, в его нынешнем состоянии, "создать" произведение искусства в том же смысле, что и человек. ИИ не обладает эмоциями, интуицией или личным опытом, которые являются ключевыми компонентами художественного творчества. ИИ пока только может генерировать изображения, музыку, текс…
Китайцы молодцы, мне понравилась сеть. Жду когда можно будет и картинки генерировать )))
По картинкам есть китайские компании, которые уже хороший результат дают. По видео, кстати, тоже — https://hailuoai.video/ буквально недавно аналог SORA выпустили
Так, патриотически настроенные комментаторы переживающие за Европу и ЯМЫАлюминий - вы че не переживаете что и тындыкс и есбер и рядом не лежат с китайским ИИ??! Где народный гнев пролетариев!?
Комментарий удалён автором поста
Видимо из-за того, что deepseek мусолится во всех пабликах несколько дней я и не могу им пользоваться уже - пишет The server is busy. Please try again later.
Да, через OpenRouter можно платно воспользоваться у других провайдеров. Иначе остается только ждать 🤷♂️
Кстати, заметил что V3 работает чаще, а вот R1 — не отвечает
Туше!)
Через раз или два пытается, а потом вылетает снова - чувак, я супер занят, покури в сторонке.