Требует меньше мощностей, денег и времени: почему китайская нейросеть DeepSeek заставила Кремниевую долину «встрепенуться»
Мнением поделился вице-президент по продукту и развитию ИИ-подразделения Dropbox Морган Браун.
Его слова приведены от первого лица.
Контекст: обучение передовых ИИ-моделей обходится безумно дорого. Только на вычислительные мощности такие компании, как OpenAI и Anthropic, тратят от $100 млн. Им нужны гигантские дата-центры — с тысячами графических процессоров (GPU) по $40 тысяч каждый. По сути, это всё равно что запускать завод, которому для работы нужна целая электростанция.
Затем появилась китайская DeepSeek и сказала: «Лол, а что если мы уложимся в $5 млн?» И не просто сказала, а сделала. Да так, что во многих задачах её модели превосходят GPT-4 и Claude. ИИ-отрасль встрепенулась.
Как? Они переосмыслили всё с нуля. Традиционный искусственный интеллект — это как записывать каждое число с 32 знаками после запятой. DeepSeek же подумала: «Может, хватит восьми?» Бац — и памяти нужно на 75% меньше.
Другая особенность — архитектура Multi-token Prediction. Рядовой ИИ читает как первоклашка: «Кошка... сидела... на...» А модель DeepSeek сразу читает фразы целиком: вдвое быстрее и с той же точностью в 90% случаев. Это важно, ведь речь идёт об обработке миллиардов слов.
Помимо этого, компания использует «мультиэкспертный подход». Вместо одного универсального ИИ, который пытается знать всё (представьте, что вы и врач, и юрист, и инженер), у DeepSeek есть специализированные сети-«эксперты», которые «включаются» только при необходимости.
Традиционные модели? У них постоянно активны 1,8 трлн параметров. Модели DeepSeek? Параметров 671 млрд, но в моменте активны лишь 37 млрд. Всё равно что содержать большую команду специалистов, но вызывать их на работу под конкретные запросы.
Результаты поражают:
- Затраты на обучение: не $100 млн, а $5 млн.
- Количество нужных GPU: 2000 вместо 100 тысяч.
- Стоимость API: на 95% дешевле.
- Тип нужных GPU: подойдут и игровые — серверное оборудование дата-центров необязательно.
«В чём подвох?» — спросите вы. А я вам отвечу: у решений DeepSeek открытый исходный код. Можете сами проверить её наработки. Все объяснения — в технической документации. Никакой магии — просто искусный инжиниринг.
Почему это важно? Ломается устоявшаяся модель — что «войти в игру может только бигтех». Разработчикам больше не нужны дата-центры за $1 млрд. Хватит несколько хороших GPU.
Для Nvidia это тревожный звонок. Бизнес-модель компании строится на продаже дорогущих процессоров — с расчётом на 90%-ную маржу. Если все внезапно получают возможность работать над моделями с помощью базовых игровых GPU, то... Ну вы поняли.
И знаете, что ещё интересно? Всё это удалось компании менее чем из 200 человек. У Meta* тем временем есть команды, в которых только зарплаты превышают бюджет DeepSeek на обучение. И модели Meta* при этом не так хороши.
Это самый что ни на есть прорыв. Старые игроки оптимизируют процессы, а «дизрапторы» переосмысливают фундаментальный подход. DeepSeek взяла и задалась вопросом: «А можем ли мы сделать то же самое, но смышлёнее, вместо того чтобы вливать всё больше и больше денег в "железо"?»
Преимуществ в итоге уйма:
- Разработка ИИ становится доступнее.
- Конкуренция ощутимо ужесточается.
- «Оборонные рвы» бигтеха всё больше походят на лужи.
- Требования к «железу» существенно смягчаются, а затраты сокращаются.
Безусловно, гиганты рынка вроде OpenAI и Anthropic бездействовать не собираются и наверняка уже внедряют те же инновации. Но «джин эффективности» уже выпущен из бутылки.
Думаю, что этот случай мы запомним как переломный для индустрии момент — как когда появление персональных компьютеров подорвало актуальность мейнфреймов или же облачные технологии перевернули рынки.
- Китайскую компанию DeepSeek основали в 2023 году в Ханчжоу. Она разрабатывает языковые модели с открытым кодом. Первую модель DeepSeek Coder представила в мае того же года, а вторую, DeepSeek-V2, ровно через год.
- В ноябре 2024 года разработчики выпустили превью-версию R1 с возможностью рассуждений, а в январе 2025 года — полную. По словам компании, модель решает задачи по программированию, математике и логике лучше или так же, как аналогичная модель o1 от OpenAI.
- У DeepSeek есть чат-бот и бесплатные приложения для iOS и Android. Бот умеет выходить в интернет и отвечать на русском языке. На момент публикации этой заметки DeepSeek занимает первую строчку в топе бесплатных приложений для iPhone в американском App Store. ChatGPT на втором. TechCrunch, как и Браун, пишет, что китайская компания заставила Кремниевую долину встрепенуться.
*Meta признана в России экстремистской организацией и запрещена.
Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого чел…
Уже слышали про DeepSeek? Эта китайская нейросеть ворвалась в топ, обрушила акции IT-гигантов и показала, что нейросети можно тренировать быстрее, дешевле, без топового железа, а западные компании, возможно, просто раздували AI-пузырь.
В последнее время сегмент мемкоинов показывает смешанные результаты: пока одни монетки показывают устойчивый рост, другие не могут выбраться из коррекции. SPX6900, AI16Z и Pudgy Penguins (PENGU) заслуживают вашего внимания в этом феврале
Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подро…
Её чат-бот до сих пор первый в списке самых скачиваемых бесплатных приложений в американском App Store.
Существует распространённое мнение, что B2B-стартап — это лёгкий путь к успеху. Высокие средние чеки, стабильный рост, серьезные клиенты, которые любят долгие контракты. А ещё венчурные фонды охотнее инвестируют в B2B, значит, это же гарантированный успех, верно? Верно, если вы живёте в параллельной реальности, где деньги падают с неба.
Успех DeepSeek без преувеличения ошеломил и вызвал бурные дискуссии во всем техно сообществе. Расскажу, в чем причина острой реакции, и какие есть точки зрения на вопрос.
Каждый день выходят новости об убийце ChatGPT. Жалко что о них через месяц забывают
Ну так а какие аналоги есть? DeepSeek R1 обходит GPT o1 на LMArena, при этом, сколько нужно бабок в месяц тратить чтобы получить доступ к o1? $200? В то время как R1 каждый день предоставляет 50 бесплатных запросов. Плюс никакой возни для пользователей из РФ и РБ. Спрашивается, зачем пользоваться тем что муторнее, хуже и дороже.
Как и с убийцами iPhone из недр Роснано и прочих.
Как с новыми аккумуляторами на замену LiIon
Это точно не про Deepseek) Этот точно ещё вжарит.
Тут такое дело что те кто вложились в nvidia могут забыть про денюжки ;)
глупый комментарий, вы статью видимо не читали.
лол, ктото еще пользуется чатжпт? может у тебя и пейджер есть?