Требует меньше мощностей, денег и времени: почему китайская нейросеть DeepSeek заставила Кремниевую долину «встрепенуться»

Мнением поделился вице-президент по продукту и развитию ИИ-подразделения Dropbox Морган Браун.

Его слова приведены от первого лица.

Контекст: обучение передовых ИИ-моделей обходится безумно дорого. Только на вычислительные мощности такие компании, как OpenAI и Anthropic, тратят от $100 млн. Им нужны гигантские дата-центры — с тысячами графических процессоров (GPU) по $40 тысяч каждый. По сути, это всё равно что запускать завод, которому для работы нужна целая электростанция.

Затем появилась китайская DeepSeek и сказала: «Лол, а что если мы уложимся в $5 млн?» И не просто сказала, а сделала. Да так, что во многих задачах её модели превосходят GPT-4 и Claude. ИИ-отрасль встрепенулась.

Как? Они переосмыслили всё с нуля. Традиционный искусственный интеллект — это как записывать каждое число с 32 знаками после запятой. DeepSeek же подумала: «Может, хватит восьми?» Бац — и памяти нужно на 75% меньше.

Другая особенность — архитектура Multi-token Prediction. Рядовой ИИ читает как первоклашка: «Кошка... сидела... на...» А модель DeepSeek сразу читает фразы целиком: вдвое быстрее и с той же точностью в 90% случаев. Это важно, ведь речь идёт об обработке миллиардов слов.

Помимо этого, компания использует «мультиэкспертный подход». Вместо одного универсального ИИ, который пытается знать всё (представьте, что вы и врач, и юрист, и инженер), у DeepSeek есть специализированные сети-«эксперты», которые «включаются» только при необходимости.

Традиционные модели? У них постоянно активны 1,8 трлн параметров. Модели DeepSeek? Параметров 671 млрд, но в моменте активны лишь 37 млрд. Всё равно что содержать большую команду специалистов, но вызывать их на работу под конкретные запросы.

Результаты поражают:

Затраты на обучение: не $100 млн, а $5 млн.
Количество нужных GPU: 2000 вместо 100 тысяч.
Стоимость API: на 95% дешевле.
Тип нужных GPU: подойдут и игровые — серверное оборудование дата-центров необязательно.

«В чём подвох?» — спросите вы. А я вам отвечу: у решений DeepSeek открытый исходный код. Можете сами проверить её наработки. Все объяснения — в технической документации. Никакой магии — просто искусный инжиниринг.

Почему это важно? Ломается устоявшаяся модель — что «войти в игру может только бигтех». Разработчикам больше не нужны дата-центры за $1 млрд. Хватит несколько хороших GPU.

Для Nvidia это тревожный звонок. Бизнес-модель компании строится на продаже дорогущих процессоров — с расчётом на 90%-ную маржу. Если все внезапно получают возможность работать над моделями с помощью базовых игровых GPU, то... Ну вы поняли.

И знаете, что ещё интересно? Всё это удалось компании менее чем из 200 человек. У Meta* тем временем есть команды, в которых только зарплаты превышают бюджет DeepSeek на обучение. И модели Meta* при этом не так хороши.

Это самый что ни на есть прорыв. Старые игроки оптимизируют процессы, а «дизрапторы» переосмысливают фундаментальный подход. DeepSeek взяла и задалась вопросом: «А можем ли мы сделать то же самое, но смышлёнее, вместо того чтобы вливать всё больше и больше денег в "железо"?»

Преимуществ в итоге уйма:

Разработка ИИ становится доступнее.
Конкуренция ощутимо ужесточается.
«Оборонные рвы» бигтеха всё больше походят на лужи.
Требования к «железу» существенно смягчаются, а затраты сокращаются.

Безусловно, гиганты рынка вроде OpenAI и Anthropic бездействовать не собираются и наверняка уже внедряют те же инновации. Но «джин эффективности» уже выпущен из бутылки.

Думаю, что этот случай мы запомним как переломный для индустрии момент — как когда появление персональных компьютеров подорвало актуальность мейнфреймов или же облачные технологии перевернули рынки.

Китайскую компанию DeepSeek основали в 2023 году в Ханчжоу. Она разрабатывает языковые модели с открытым кодом. Первую модель DeepSeek Coder представила в мае того же года, а вторую, DeepSeek-V2, ровно через год.
В ноябре 2024 года разработчики выпустили превью-версию R1 с возможностью рассуждений, а в январе 2025 года — полную. По словам компании, модель решает задачи по программированию, математике и логике лучше или так же, как аналогичная модель o1 от OpenAI.
У DeepSeek есть чат-бот и бесплатные приложения для iOS и Android. Бот умеет выходить в интернет и отвечать на русском языке. На момент публикации этой заметки DeepSeek занимает первую строчку в топе бесплатных приложений для iPhone в американском App Store. ChatGPT на втором. TechCrunch, как и Браун, пишет, что китайская компания заставила Кремниевую долину встрепенуться.

Полина Лааксо

Инвестиции

27 янв

Акции техкомпаний из разных стран просели на фоне шумихи вокруг китайского ИИ-разработчика DeepSeek

Одни опасаются конкуренции. Другие — снижения инвестиций и перестройки цепочек поставок.

*Meta признана в России экстремистской организацией и запрещена.

#новости #deepseek #openai #anthropic #нейросети

200 комментариев

Суцкевер Семен - Fond&Flow

Каждый день выходят новости об убийце ChatGPT. Жалко что о них через месяц забывают

Ответить

Эмобой из 2007

Ну так а какие аналоги есть? DeepSeek R1 обходит GPT o1 на LMArena, при этом, сколько нужно бабок в месяц тратить чтобы получить доступ к o1? $200? В то время как R1 каждый день предоставляет 50 бесплатных запросов. Плюс никакой возни для пользователей из РФ и РБ. Спрашивается, зачем пользоваться тем что муторнее, хуже и дороже.