реклама
разместить

Какие вопросы ставит успех DeepSeek и какие сейчас есть ответы

🔥 Еще больше интересного в моем канале Продуктовые штучки

Жаркие споры вокруг успеха DeepSeek продолжаются. Подведем некоторые промежуточные итоги

Подробнее о ситуации вокруг модели DeepSeek можно почитать тут; почему нельзя однозначно говорить о проигрыше американского ИИ – тут.

Что имеем?

  • Одна из ее последних моделей DeepSeek обошлась всего в $5,6 млн - это всего 5% от того, что потребовалось на o1 от OpenAI
  • Модель R1, выпущенная на прошлой неделе, была названа «одним из самых удивительных и впечатляющих прорывов
  • Акции Nvidia, Tesla, Google, Amazon и Microsoft рухнули
  • Приложение DeepSeek лидирует во многих странах в магазинах приложений. Количество пользователей увеличилось в разы, только за последние дни его скачало более 2 млн раз.

Вопрос 1. Действительно ли требуются миллиарды долларов, чтобы выиграть гонку ИИ? Сколько стоило обучение модели?

Выяснить, сколько на самом деле стоят модели, немного сложно, потому что DeepSeek не сможет честно сказать о том, какие у него типы и сколько графических процессоров — из-за санкций.

Прикидки говорят о том, используемые методы оптимизации могут дать такой результат и что китайцы говорят правду.

Cообществу открытого исходного кода (по словам руководителя исследований Hugging Face Леандро фон Верры) не потребуется много времени, чтобы узнать это. Команда исследователей начала работать на выходных, чтобы воспроизвести и открыть исходный код рецепта R1, и как только они смогут создать свою собственную версию модели, «мы довольно быстро узнаем, сходятся ли цифры».

Вопрос 2. Как DeepSeek удалось сделать модель так дешево?

Если коротко, то они использовали наработки конкурентов. В частности, модели с открытым исходным кодом.

Вместо того, чтобы начинать с нуля, DeepSeek построила свой ИИ, используя существующие модели с открытым исходным кодом в качестве основы — модель Llama от Meta* и экосистему PyTorch.

По мнению ряда экспертов успех DeepSeek с его новой моделью ИИ подтверждает идею о том, что ИИ модели с открытым исходным кодом становится более конкурентоспособными и, возможно, даже превосходит закрытые, фирменные модели крупных технологических компаний. Так, Я.Лекун (один из самых уважаемых экспертов в мире ИИ) заявил, что DeepSeek «извлек выгоду из открытых исследований и открытого исходного кода».

К слову, OpenAI изначально была основана как компания с открытым исходным кодом для разработки ИИ с миссией создания технологий, приносящих пользу всему человечеству, но затем перешла на закрытый исходный код. т.к. это «более простой способ достичь безопасности [модели]».

Сторонники открытого исходного кода говорят, что он позволяет технологиям развиваться быстро и демократично, поскольку любой может изменять и распространять код. С другой стороны, сторонники моделей с закрытым исходным кодом утверждают, что они более безопасны, поскольку код остается конфиденциальным.

Бывший исследователь OpenAI Майлз Брандейдж рассказал The Verge, что R1 использовал два ключевых трюка оптимизации: более эффективное предварительное обучение и обучение с подкреплением на основе цепочки рассуждений. DeepSeek сделало сам процесс обучения более эффективным, разработав DeepSeekMLA (Multi-Head Latent Attention), что значительно сократило объем памяти, необходимый для запуска ИИ моделей, оптимизировав сжатие хранения и извлечения информации.

Также DeepSeek нашел способы использовать более дешевые графические процессоры для обучения своего ИИ. Эта комбинация позволила модели достичь производительности уровня o1, используя при этом гораздо меньше вычислительной мощности и денег.

Наконец, эксперты полагают, что озвучены не все затраты на разработку модели. А если посчитать всё сразу, то получится, что DeepSeek вложил в обучение модели вполне сравнимо с вложениями в LLama.

NYT считает, что в $6 млн не учтена ни цена видеокарт, ни разработчиков, ни тот факт, что с первого раза получить такую модель невозможно.

Вопрос 3. Является ли R1 копией o1?

DeepSeek v3, а также более ранняя версия DeepSeek v2 — это, по сути, те же модели, что и GPT-4, но с более хитрыми инженерными приемами, позволяющими получить большую отдачу от своих затрат с точки зрения графических процессоров, полагают эксперты.

Тем не менее, без доступа к базам данных обучения трудно определить, насколько это «копия» o1 — использовал ли DeepSeek o1 для обучения R1.

В декабре Альтман написал, что «(относительно) легко скопировать то, что, как вы знаете, работает» и «чрезвычайно сложно сделать что-то новое, рискованное и сложное, когда вы не знаете, сработает ли это».

Таким образом, DeepSeek может не создавать новые передовые модели, а просто копировать существующие модели. Инвестор OpenAI Джошуа Кушнер также считает, что DeepSeek «обучался на ведущих передовых моделях США».

Вопрос 4. Так уж необходимы гигантские средства для успеха?

DeepSeek потрясает весь инвестиционный ландшафт.

ИИ был историей излишеств: центры обработки данных, потребляющие энергию в масштабах небольших стран, миллиардные учебные заезды и история о том, что только технологические гиганты могут играть в эту игру. Для многих кажется, что DeepSeek просто разнес эту идею в пух и прах.

Во-первых, считалось, что независимо от того, кто бы ни оказался лидером в гонке ИИ, нужен гигантский запас чипов Nvidia для запуска моделей. Успех DeepSeek переворачивает инвестиционную теорию, которая привела к заоблачным ценам на акции Nvidia.

Во-вторых, стартапы как OpenAI и Anthropic достигли головокружительных оценок — $157 млрд и $60 млрд соответственно — за счет венчурных вливаний. Успех DeepSeek говорит о том, что простое вливание большого количества денег не так требуется, как думали многие компании и инвесторы.

Вопрос 5. Какой подход к инновациям более эффективен?

Кажется, что США и Китай придерживаются противоположных подходов. В то время как китайский DeepSeek показывает, что можно внедрять инновации посредством оптимизации, несмотря на ограниченные вычислительные возможности, США делают большую ставку на грубую силу — как видно из проекта Stargate стоимостью $500 миллиардов.

Так ли это? О том, повлияли ли санкции на чипы на результат разработки DeepSeek, читайте тут.

* - Деятельность в России признана экстремистской

Пожалуйста, поддержите меня, поставьте лайк!

55
реклама
разместить
Начать дискуссию
🐋 DeepSeek: китайская нейросеть, которая только что хакнула рынок AI

Уже слышали про DeepSeek? Эта китайская нейросеть ворвалась в топ, обрушила акции IT-гигантов и показала, что нейросети можно тренировать быстрее, дешевле, без топового железа, а западные компании, возможно, просто раздували AI-пузырь.

1111
33
11
реклама
разместить
DeepSeek: не просто хайп, а новые правила игры
Пост в X (ранее Twitter) от имени аккаунта-пародии основателя DeepSeek<br />

Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подро…

1717
55
11
ИНАРКТИКА: биологические угрозы и высокие цены на красную рыбу

🦈 ИНАРКТИКА, лидер российского производства аквакультурного лосося и форели, обнародовала накануне операционные итоги за 2024 год. И это отличный повод рассмотреть ключевые показатели компании и провести их анализ вместе с вами.

ИНАРКТИКА: биологические угрозы и высокие цены на красную рыбу
22
Почему рано хоронить OpenAI и превозносить DeepSeek?

В техно и финансовых кругах развернулась дискуссия (если не сказать паника). Шутка ли, что можно вот так вот создать модель с 20 раз дешевле, да и еще в условиях санкций? Но не все так просто. Расскажу, в чем дело

Лаг между "эффектом доступа" и "эффектом производительности". <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblog.heim.xyz%2Fdeepseek-what-the-headlines-miss%2F&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
99
DeepSeek за $6 млн: революция в AI или закат западной технологической гегемонии – в чем причина паники? Разбираемся!

Китайский стартап DeepSeek выпустил прорывной AI, который уже обошел западных гигантов. Чем уже вызвал массовую распродажу акций. Какие последствия это может иметь для будущего индустрии?

DeepSeek за $6 млн: революция в AI или закат западной технологической гегемонии – в чем причина паники? Разбираемся!
1010
22
Требует меньше мощностей, денег и времени: почему китайская нейросеть DeepSeek заставила Кремниевую долину «встрепенуться»

Мнением поделился вице-президент по продукту и развитию ИИ-подразделения Dropbox Морган Браун.

Источник фото: elEconomista 
132132
3636
44
22
11
11
Лайк. Deepseek очень крут.
Заявки с сайтов конкурентов

Статья о новой технологии маркетинга, которая приводит заявки в 2-3 раза дешевле, чем Яндекс Директ и другие источники.

11
DeepSeek R1 vs ChatGPT4 vs Perpexity Pro
Сравнительная характеристика от Перплексити
[]