Деньги, Ватты, GPU: сколько тратят лидеры ИИ

Сколько единиц GPU в распоряжении форвардов ИИ?

Какая мощность требуется для поддержания единовременной работы сотни тысяч графических процессоров?

Сколько флопс* суммарно выдают десятки тысяч GPU? И превосходит ли этот показатель передовые суперкомпьютеры?

Сколько платят за электроэнергию лидеры ИИ в месяц? И почему все чаще стали говорить об использовании атомной энергии?

Рис 0. Красивая иллюстрация к заголовку статьи
Рис 0. Красивая иллюстрация к заголовку статьи

Итак, обо всем по порядку.

Когда мы говорим об индустриальном развитии систем искусственного интеллекта, следует иметь в виду три основных фактора, обуславливающих это развитие.

Рис 1. Подобно мифу о трех китах, на которых зиждется Земля
Рис 1. Подобно мифу о трех китах, на которых зиждется Земля

Без каждого из этих факторов стране/корпорации нельзя рассчитывать на лидерство в системах ИИ настоящего и, соответственно, будущего:

1. Кадры (математики, инженеры, программисты, филологи, нейрофизиологи и т.д.)

2. Вычислительная инфраструктура (графические процессоры, центральные процессоры, тензорные процессоры и т.д.)

3. Энергетика (АЭС, ТЭС, ГЭС и т.д.)

Какие процессоры используются в ИИ?

Я бы хотел подробнее остановиться именно на вычислительной инфраструктуре, точнее, на графических процессорах (хотя обучают и запускают ИИ также на CPU), но рынок сейчас своей «невидимой рукой» подтолкнул вперед именно производство GPU (ввиду объективных причин, о которых будет написано далее).

Так, по производительности (выполнение вычислений за единицу времени) и пропускной способности памяти лидерами являются именно графические процессоры (GPU – graphics processing unit). Десятки тысяч единиц данного типа процессоров используются такими компаниями, как NVIDIA, Amazon, Microsoft, Tesla и т.д.

В целом, на рынке, конечно, существуют и альтернативы, к примеру, TPU (Tensor Processing Unit), NPU (Neural Processing Unit), DPU (Data Processing Unit), ASIC (Application-SpecificIntegrated Circuit), VPU (Vision Processing Unit) и даже Quantum Processing Unit (QPU), но, в данной статье, речь идет о рынке и о товаре, который зарекомендовал себя как в исследовательских, так и в боевых задачах, в условиях масштабирования, поэтому продолжим говорить о GPU.

О графических процессорах во второй половине 2023 и в течение всего 2024 года говорят очень многие, точнее о их дефиците на рынке. Многим известно, что ключевых игроков, занимающихся производством GPU для ИИ вычислений, всего несколько и это:

- NVIDIA

- AMD

- Intel

В то время, как все новые и новые игроки (международные корпорации) входят в гонку за AGI, то речь уже идет не о потребности в десятках тысяч единиц устройств, а о сотнях тысяч, о чем и свидетельствует план Nvidia до конца этого года выпустить от 1,5 до 2 млн NVIDIA H100 GPU

Рис 3. Компании-лидеры ИИ гонки
Рис 3. Компании-лидеры ИИ гонки

Интересно, как обстоят текущие дела с GPU у лидеров ИИ гонки. К числу таковых я отношу:

- Microsoft (один из ключевых инвесторов OpenAI, создателей ChatGPT)

- Google (Gemini)

- Amazon (один из ключевых инвесторов Anthropic, создателей Claude)

- xAI (Grok)

Давайте разберемся.

Арифметика МВт / GPU / Петафлопс

Для понимания текущей конъюнктуры предлагаю посчитать количество затрачиваемой электроэнергии на поддержание графических процессоров и их совокупную производительность (флопс) среди раннее описанных лидеров ИИ рынка.

Информация взята из открытых источников (но авторитетных) и включает в себя приблизительные оценки по числу GPU, закупленных компаниями в течение 2023 года (по 2024 году уверенности в существующих цифрах меньше, поэтому давайте отталкиваться от данных на конец предыдущего).

Microsoft

По открытым данным, имеют в распоряжении более 150 000 GPU NVIDIA H100.

Рис 4. GPU NVIDIA V100
Рис 4. GPU NVIDIA V100

При FP16 (формат представления числа с плавающей точкой, который использует 16 бит) одна единица модели GPU NVIDIA H100 выдает 1 979 терафлопс (или 1,979 петафлопс)

Общая производительность 150 000 единиц NVIDIA H100 может достигать 296 850 петафлопс (или 289,8 экзафлопс) при FP16

Каждая единица NVIDIA H100 GPU потребляет до 700 Вт мощности в полной нагрузке

Соответственно, 150 000 единиц могут единовременно потреблять до 105,000,000 Вт (или 105 МВт)

Таким образом, 150 000 GPU NVIDIA H100 будут потреблять около 105 мегаватт энергии при полной нагрузке.

НО! В реальных условиях энергопотребление, конечно, будет выше за счёт вспомогательной инфраструктуры, такой как системы охлаждения, серверное оборудование и блоки питания.

Рис 5. Инфографика по Microsoft
Рис 5. Инфографика по Microsoft

Google

По открытым данным, имеют более 50 000 GPU NVIDIA H100.

Рис 6. GPU NVIDIA H100
Рис 6. GPU NVIDIA H100

Общая производительность 50 000 единиц NVIDIA H100 может достигать 98 950 петафлопс (или 96,6 экзофлопс) при FP16

Соответственно, 50 000 единиц могут единовременно потреблять до 35,000,000 Вт (или 35 МВт)

Таким образом, 50 000 GPU NVIDIA H100 будут потреблять около 35 мегаватт энергии при полной нагрузке.

Рис 7. Инфографика по Google
Рис 7. Инфографика по Google

Amazon

По открытым данным, имеют около 50 000 GPU NVIDIA H100.

Соответственно, арифметика аналогичная вышестоящей, 50 000 GPU NVIDIA H100 будут потреблять около 35 мегаватт энергии при полной нагрузке.

Рис 8. Инфографика по Amazon
Рис 8. Инфографика по Amazon

К слову, вычислительная мощность отдельно Microsoft, Google, Amazon уже превосходит такие американские суперкомпьютеры, как Frontier (1,2 экзофлопс), Aurora (1,01 экзафлопс) и Eagle (0,5 экзафлопс).

Недавно к “вычислительным войнам GPU-клонов” присоединился и основатель компании Tesla и xAI. Так, кластер, который запускает Илон Маск в Мемфисе (штат Теннеси) будет включать более 100,000 GPU NVIDIA H100, а это 193 экзафлопс мощности и 70 мегаватт (МВт) при полной нагрузке. К слову, данная информация актуальна на 2024 год, но для наглядности оставим её.

Рис 9. Инфографика по xAI
Рис 9. Инфографика по xAI

Экономика МВт / GPU

Среднее домохозяйство в США потребляет 900 киловатт-часов (кВт⋅ч) электроэнергии в месяц. В России – это где-то 200 киловатт-часов (кВт⋅ч) электроэнергии в месяц.

Таким образом, мощности, необходимой для поддержания месячной работы GPU хватило бы на следующее число домохозяйств:

Microsoft - 105,000,000 Вт или 105,000 кВт (105,000 кВт × 720 часов = 75, 600, 000 кВт⋅ч.) / 84 000 домохозяйств в США и 378 000 домохозяйств в РФ

Допустим, что средний размер домохозяйства и в США и в РФ равен 2,6. Таким образом, 84 000 домохозяйств - это город с населением в 218 400 чел., а 378 000 домохозяйств - это 982 800 чел. (почти что город-миллионник в РФ)

Google - 35,000,000 Вт или 35,000 кВт (35,000 кВт × 720 часов = 25, 200, 000 кВт⋅ч.) / 28 000 домохозяйств в США и 126 000 домохозяйств в РФ

Amazon - расчет аналогичен предыдущему

xAI – 70,000,000 Вт или 70,000 кВт (70,000 кВт × 720 часов = 50, 400, 000 кВт⋅ч.) / 56 000 домохозяйств в США и 252 000 домохозяйств в РФ

По средней стоимости электроэнергии $0.17 за 1 кВт⋅ч в США, получаем следующие, расходы на содержание GPU кластеров в международных компаниях:

Microsoft - (105,000 кВт х 0,17) x 24 = $428 400 / 24 часа || $ 12 852 000 / 30 дн

Google - 35,000 кВт = $142 800 / 24 часа || $4 284 000 / 30 дн

Amazon - 35,000 кВт = $142 800 / 24 часа || $4 284 000 / 30 дн

xAI - 70,000 кВт = $285 600 / 24 часа || $ 8 568 000 / 30 дн

Рис 10. Инфографика по затратам форвардов ИИ на электроэнергию
Рис 10. Инфографика по затратам форвардов ИИ на электроэнергию

В завершении раздела коротко оценим стоимость озвученного выше объема GPU:

Microsoft - 150 000 GPU NVIDIA H100 / стоимость NVIDIA V100 в США начинается от $25 000, таким образом общая стоимость доступных единиц графических процессоров составляет $ 3 750 000 000 (без учета амортизации)

К слову, по информации Business Insider, Microsoft планируют увеличить свой запас GPU до 1,8 млн единиц к концу 2024 года (а это $45 000 000 000...но понятно, что за опт сделают скидку и т.д., но суммы впечатляют)

Google – 50 000 GPU NVIDIA H100 / общая стоимость доступных единиц графических процессоров составляет $1 250 000 000 (без учета амортизации)

Amazon – 50 000 GPU NVIDIA H100 / общая стоимость доступных единиц графических процессоров составляет $1 250 000 000 (без учета амортизации)

xAI - 100,000 GPU NVIDIA H100 / $2 500 000 000 (без учета амортизации)

GPU: куда дальше?

Относительно недавно Дженсен Хуанг презентовал NVIDIA Blackwell – платформу, которая включает новое поколение графических процессоров (GPU) и технологий для высокопроизводительных вычислений и задач искусственного интеллекта.

Рис 11. Кадр с презентации NVIDIA
Рис 11. Кадр с презентации NVIDIA

Событие состоялось в марте 2024 года. Новая архитектура процессора разработана специально для работы с задачами нового поколения в ИИ. Он включает 208 миллиардов транзисторов и поддерживает до 1,4 экзафлопс производительности ИИ. Blackwell использует 4-нм техпроцесс и демонстрирует до 25 раз меньшее энергопотребление на задачах ИИ-инференса по сравнению с предыдущими моделями.

Среди желающих разместить Blackwell в своих дата-центрах, уже значатся Amazon WebServices, Dell Technologies, Google, Microsoft, OpenAI, Oracle, Tesla и xAI

А что все-таки по энергетике?

Как было отмечено выше – спрос на GPU будет расти...Речь уже идет не только о сотнях тысяч единиц графических процессоров, но и о миллионах (см.выше новость по Microsoft и их планы на конец 2024), а для поддержки подобного вычислительного кластера необходима выработка такого объема энергии, которого бы хватило на подпитку целого города (а это гигаватты мощности). А где столько энергии взять, когда вовсю продвигается повестка «зеленой энергетики» (у которой выработка энергии в разы ниже, чем у угля/нефти/газа) и отказ от ископаемого топлива (а это ТЭС)?

Рис 12. Будущее энергетики для ИИ
Рис 12. Будущее энергетики для ИИ

Ответ: в портативных и не очень АЭС (атомных электростанциях). Ибо атом является одним из самых чистых источников энергии (по сравнению с ТЭС, ГЭС).

И лидеры ИИ рынка это понимают и уже предпринимают конкретные шаги в данном направлении, рассчитывая на подпитку будущих вычислительных мощностей за счет атомной энергетики. Так полным ходом наращивают мощности Microsoft, Google, Amazon, Oracle.

_________

В завершении, еще раз подчеркну, что в данной статье речь шла только о графических процессорах и производных от их использования. В действительности, помимо GPU, затраты на инфраструктуры включают, еще и расходы на CPU, серверы, SSD, HDD, внутренние сети, системы жидкостного и воздушного охлаждения, резервные источники питания и т.д.

* FLOPS (Floating Point Operations Per Second) — это единица измерения производительности компьютера или процессора, которая показывает, сколько операций с плавающей точкой (операций с числами, имеющими дробную часть) может выполнить процессор за одну секунду.

22
11