Сбер запустит суперкомпьютер: что это может значить

К концу 2021 Сбер планирует запустить суперкомпьютер. Зачем компании второй суперкомпьютер, кто им будет пользоваться и почему это больше, чем просто кейс внедрения?

Бриф про суперкомпьютеры

Суперкомпьютеры– это НРС-кластеры, в которых вычисления реализуются параллельно, т.е. задача дробится на несколько и они решаются одновременно. Такой подход позволяет в десятки раз ускорить вычисления.

Важно различать суперкомпьютеры для науки и суперкомпьютеры для бизнеса. Для рынка важнее суперкомпьютеры для коммерческого сектора и в них основная точка роста: там нет гонки вычислений и мощностей ради мощностей, но зато есть экономика и прикладные задачи, решение которых с помощью НРС позволяет каким-то образом повысить прибыль. НРС – вещь дорогая, администрировать ее сложно, нужен адаптированный софт и для окупаемости суперкомпа необходимо обеспечивать загрузку мощностей хотя бы на 60-70%. Иначе экономика не сходится. На практике обеспечить такой загруз бывает сложно и компаниям не всегда выгодно иметь собственный вычкластер.

Отсюда следуют важные направления развития HPC:

первое – HPC-as-a-service, в мире такая услуга активно развивается, в РФ пока что - с трудом, но, возможно, именно Сбер эту ситуацию исправит.

второе – снижение операционных затрат, которое позволит окупать суперкомпы при меньшей загруженности мощностей. Снижение костов обозначает повышение энергоэффективности НРС, лидеры в области производства железа для НРС совершенствуют продукты именно в этой части. Основное преимущество нового суперкомпа Сбера, о котором сказал Греф, как раз энергоэффективность.

Кому нужны суперкомпьютеры

Раньше НРС использовались преимущественно в науке и госсекторе для решения вычислительных задач, предполагающих моделирование процессов.

Если изучить недавние кейсы внедрений, то очевиден запрос на НРС со стороны сферы BFSI, машиностроения, транспортной сферы и добывающей промышленности, однако в формате as-a-service HPC могут быть интересны широкому спектру самых разных компаний, даже небольших.

Зачем Сберу 2 самых мощных кластера в РФ

У Сбера уже есть один суперкомпьютер - Кристофари, он запущен в 2019 году и используется в т.ч. для обработки данных биометрии, часть мощностей сдается в формате as-a-service.

Сегодня Кристофари является самым мощным в РФ и единственной российской машиной, адаптированной под работу с искусственным интеллектом. Кристофари занимает 61 позицию в топ-500, в рейтинге от июня 2021 другие российские кластеры в первой сотне не представлены.

По текущим данным, мощность нового кластера Сбера будет выше, чем мощность Кристофари.

По мировой практике мы видим, что последовательный запуск нескольких НРС-машин - типичная история: попробовав НРС-кластер в деле и оценив его выгоду, компании понимают, что у них есть задачи для еще одного кластера и его внедрение окупится.

Скорее всего, у Сбера случилось то же самое: у компании очень много вычислительных задач, с учетом приоритета государства на развитие единой биометрической системы и агрессивного и успешного инвестирования компании в ИИ их количество будет увеличиваться. Помимо этого, вероятно, что опыт сдачи мощностей Кристофари в аренду показал, что спрос на НРС-as-a-service высокий. Сбер смотрит в сторону создания инфраструктуры НРС-as-a-service и сдачи ее в аренду - это было ясно уже из пресс-релизов о запуске Кристофари.

Мы видим свою миссию в том, чтобы сделать супервычисления и разработку решений на базе искусственного интеллекта доступными любой компании независимо от ее размера, отрасли и территориального расположения.

Давид Рафаловский, ИТ-директор, технический директор группы "СберБанк"

Помимо этого, у Сбера много своих задач, решение которых с помощью НРС оправдано: в первую очередь - обработка биометрии, риск-анализ, стратегии гибкого ценообразования в режиме реального времени.

Но сейчас, конечно, ждем информации о запуске нового суперкомпьютера, его мощностях и планах по использованию, по заявлению Грефа, запуск машины анонсируют в ноябре.

Я пишу о трендах в tg - велкам. Изучаю то, что меняет мир, общество и рынки прямо сейчас и кажется интересным и важным. Там же будет более подробный и предметный разбор этого кейса.

0
98 комментариев
Написать комментарий...
Dmitry Mikushin

0,16 ТФлопс - это как-то совсем мало, один средненький ноутбук. А вот 0,16 ПФлопс - понятно зачем, для физики: Ansys, OpenFOAM, Schlumberger и т.д. Физику на нейросетях не считают (пока, хотя это возможно), поэтому предел её масштабирования - размеры сетки месторождения, небольшие по сравнению с данными для нейросети.

Ответить
Развернуть ветку
Vika S
Автор

На своем сайте написали, что 0,16ТФлопс  ~ 160 компов. Вообще я слышала, что в нефтяке очень мощные кластеры есть, но о них особо не говорят.
Лично мне мнение - вряд ли они мощнее сберсовского Кристофари, если бы было что-то супер-выдающееся, они бы об этом рассказали, чтобы все видели, какие они цифровые...

Ответить
Развернуть ветку
Dmitry Mikushin

Они пишут 16 ТФлопс (это не 0,16TФлопс). Примерно 10 видеокарт.

Ответить
Развернуть ветку
Frut Dzentready

Это одна одна карта nvidia a100 перекрывает. Новая от интел 40 tflops.
https://www.ixbt.com/news/2020/08/13/intel-gpu-16-384-40-tflops.html

Ответить
Развернуть ветку
Dmitry Mikushin

Ну да, помянем Intel. Эра чипов от корпораций доживает последние деньки. Как бы ни был хорош новый GPU Intel, его никто не увидит из-за острейшего дефицита производства. А когда дефицит кончится, поляной будут править уже частично открытые кастомные дизайны RISC-V.

Ответить
Развернуть ветку
Frut Dzentready

А вы end-user и hpc случайно не перепутали?
Кстати не совсем понял почему RISC-V не совместим с mass-gpu? Там, если ничего не путаю, даже отдельный блок инструкций предусмотрели для интеграции и gpu и, даже, FPGA.

Ответить
Развернуть ветку
Dmitry Mikushin

Я говорю, что когда кризис кончится, пропитеарные чипы NVIDIA/AMD уступят рынок кастомным RISC-V. Дженсен 20 лет подряд выпрыгивал на сцену (теперь ещё со своим виртуальным двойником) с основным посылом, что GPU - чудо-недосягаемая технология. Но уже сейчас тиражи чипов на TSMC делают студенты, ещё немного, и на деятелей старой школы всем будет плевать.

Ответить
Развернуть ветку
Frut Dzentready

Может я динозавр, но я что-то такое про no-code уже слышал) И про GAN)))
Старая школа делает инструменты разработки и оптимизации того же RISC-V)
А end-user и hpc граница проходит там где вы начинаете свой датаценр строить) ну или хотя бы магистраль решаетесь проложить новую)

Ответить
Развернуть ветку
Dmitry Mikushin

"Инструменты" - это наверно Verilog? С годами мы превращаемся в динозавров, потому что наш мозг почему-то воспринимает скорость развития мира как линейную, когда как на самом деле развитие ускоряется в геометрической прогрессии. В результате быстрые перемены видятся чем-то очень далёким.

Ответить
Развернуть ветку
Frut Dzentready

Это Chisel к примеру

Ответить
Развернуть ветку
Dmitry Mikushin

Он на Scala, и это ужасно. Разрабатывать HPC-чипы на движке, который самой своей сущностью отрицает производительность и эффективность - это симптом биполярного расстройства личности. Каждый раз натыкаясь на героических построителей языков DSL на основе Scala, мне приходит в голову только одно объяснение: людей жёстко унизили на экзамене по построению компиляторов, или они слишком ленивы чтобы написать грамматику и парсер на bison+flex. 

Ответить
Развернуть ветку
Frut Dzentready

И это вы мне говорили про ускорение развития а сами какие-то замшелые мифы про производительность scala вспоминайте. Ещё и бизон с флексом.
А по поводу Chisel - советую присмотреться. Такой удобной параметрической генерации я больше ни где не видел (но я и не проф-разработчик чипов).
При этом у вас есть ещё и полная мощность мультипарвдигмового языка программирования.
Я уже не говорю о том как удобно в Chisel упаковывать библиотеки IP блоков.
Беркли не зря в эту платформу столько усилий вкладывает.

Ответить
Развернуть ветку
Dmitry Mikushin

Столько усилий вкладывают в никуда, и не говорите! У нас тоже тут один профессор Стенфорда сидит в совете директоров и бредит скалой. В результате продукт компании никому не нужен, кроме банков - таких же любителей отсутствия эффективности кода. Вы же прекрасно знаете, что в JVM нет векторизации. Есть недавно запиленное неособо удобное расширение Java, о котором никто толком не знает. Потому-то я и вспомнил про бизон с флексом: лучше уж воспользоваться классической инфраструктурой, чем оставить себя с 1/8-1/16 производительности железа.

Ответить
Развернуть ветку
Frut Dzentready

Ну у меня в арсенале c++/java/scala/python.
Так что могу сравнить.
И вот что я скажу - векторизация далеко не всегда нужна. Да, может на плюсах с ассемблерными вставками можно написать супер оптимизированный под платформу код числодробилки. Но кто же сейчас такое на ЦПУ делает? А тот-же тензорфлоу есть и для jvm.
Потом если мы про производительность jvm говорим - сразу надо разговаривать про то как вы ее настроили (gc и прочее), и как вы замеряет производительность (прям постоянная ошибка - не прогревать инстанс)
Потом scala это далеко не только jvm.
Это ещё и scala.js и scala native. Последняя, настолько мне известно уже научилась векторизация некоторых типовых задач.
Скажу больше - где-то полтора года назад проверял как оно умеет в рекурсию и обычные намывные реализации ряда Фибоначчи и фактоиала (рекурсивные, tail rec) показали одинаковые тайминги (я сам не поверил когда в одном из прогонов скала нейтив обогнала плюсы)

ЗЫ а зачем в задаче разработки микроархитектуры нужна векторизация? Она при синтезе и роутинге нужна. Ну так пайплайн chisel и не делает это внутри JVM. А дсл на скала очень удобен и выразителен.
Ну и если бы вы посмотрели как это работает то поняли что там все кроме симулаций для тестов делается компилятором скалы а не в рантайме

Ответить
Развернуть ветку
Dmitry Mikushin

End user - в смысле селероны для планшетов, которые китайцы засовывают в алюминиевые шасси и продают как ноутбуки? Ничего дороже этих подделок масс-маркет уже брать не желает, потому как за что платить - непонятно: сомы на интеле в два-три раза дороже аналогичных на арме. XE - продукт для витрин бутиков. А почему такие цены? Инженеры интела уже вообще перестали понимать как эффективно дизайнить и производить чипы. А менеджмент стегает их хлыстом, не понимая что кроме очередной презентации намерений выбить нечего. 

Ответить
Развернуть ветку
95 комментариев
Раскрывать всегда