Справочник по выбору GPU для работы с большими языковыми моделями Llama
Dalle-3
2727
22

1. Как насчет совсем бюджетного варианта - Tesla M10 32 Гб? Вариант с тремя GPU дешевле ~100 тыс. руб. выглядит очень заманчиво, но там 4 дохлых GPU на одной плате, итого 12 GPU на сервер... зато 96 Гб. Интересно, на что этот Франкенштейн будет похож в работе? Скорость будет как на CPU? )))
2. К сожалению у меня нет средств на сборку 500k+, сервер использую для личных нужд, как личный ассистент. На данный момент использую:
Tesla P40 24Gb 2 шт.
GeForce gtx 1080 ti 11gb 1 шт.
Xeon E5-2680 v.4 2 шт.
Хочется сделать вариант с Tesla P40 24Gb 4 шт. чтобы запускать модели 100-140B, но есть сомнения в ту ли сторону я двигаюсь. Какую скорость можно будет получить, например на модели wizardlm-2 8x22b? На CPU эта модель у меня работает ~3 токена/сек. На GPU в имеющиеся 59 Гб не влезает, но модели 70B на GPU выдают порядка 12-15 токенов/сек. Выходит на модели wizardlm-2 8x22b (вдвое больше) скорость будет вообще порядка 7 токенов/сек? Это не сильно быстрее CPU и ради 7 токенов городить 4 GPU сборку точно смысла нет.
3. Так же вопрос, по процессору. Правильно ли я понял из статьи, что замена CPU на версии с меньшим количеством ядер, но более высокими частотами на ядро даст прирост скорости?

Ответить

1. Не рекомендую Tesla M10, очень слабая. К тому же там по 8Гб разделение на плате и в системе это будет 4 по 8 гб.
2. Tesla P40 24 Gb в принципе для инференса терпимая и дешевая тема часто в 2-3 раза слабее чем современные карты.
wizardlm-2 8x22B может иметь хорошую скорость потому что там только 8B при инференсе активируется, в этом особенность MOE архитектур.
3. Прирост может быть, но не для всех ГПУ это будет заметно, в основном это важно для моделей типа 3090, 4090, А100.
Вероятно с P40 никакого эффекта не будет, кроме случаев когда на процессор будут слои частично выгружаться, тогда да будет быстрее.

Ответить