DeepSeek R2 задерживается из-за обучения на импортозамещённых чипах Huawei

Почему-то все видят в этом укор в адрес этих чипов — а по-моему наоборот.

Вторая мажорная версия думающей LLM от китайской DeepSeek вроде как должна была выйти ещё в мае, но не вышла до сих пор. FT пишет, что процесс затянулся из-за использования чипов Huawei Ascend, которые рекомендовало использовать китайское правительство в рамках импортозамещения.

tldr у газеты такой: Китай пытается снизить зависимость от американских GPU, особенно в свете экспортных ограничений США, но полностью обучить R2 на чипах Ascend не получается — недостаточно производительности (у Ascend 910c около 60% от уровня инференса Nvidia H100), а экосистема Huawei менее зрелая, чем CUDA. Поэтому основная часть обучения прошла на чипах Nvidia, а инференс (менее ресурсоёмкая часть) — на Huawei Ascend.

В перепечатках медиа и постах в соцсетях вижу коннотации, мол, это ещё одно доказательство отставания китайских чипов от американских. Может и так — но в целом этот взгляд скорее помогает китайскому отделу продаж Nvidia, которая заключила беспрецедентную экспортную сделку с администрацией Трампа: послабления в поставках чипов в Китай (которые недавно прям завинтили) в обмен на 15% выручки от этого направления. Но там разрешили поставки H20, они значительно слабее H100, цены получаются выше из-за этих 15%, да и топовые чипы экспортировать всё ещё нельзя.

А вот суть новости как будто вообще можно прочитать иначе: даже несмотря на задержку в три месяца, DeepSeek продолжает экспериментировать с Huawei Ascend, чтобы снизить зависимость от Nvidia в будущем. Но полностью от более мощных технологий не отказываются: балансируют между производительностью и геополитическими интересами.

Ну и небольшая деталь: чипы Huawei использовали и для инференса R1, просто тогда ещё никто не ожидал от DeepSeek какого-то прорыва.

Подписывайтесь на Telegram Радиорубка Лихачёва.