не до конца понял вопрос по процессорам, если допустим 2х 3090.
На процах типа 5700x всего 1 x16 PCle 4.0 линия. Все равно лучше он чем например Ryzen threadripper 1950x с чуть меньшей частотой, но 4 x16 PCle 3.0 линиями?
Если в системе не планируется больше, чем двух ГПУ, а материнская плата дает сразу два PCIE слота напрямую в процессор 5700x, то этот вариант будет быстрее работать даже по х8. Если же 1 слот идет в процессор, второй через чипсет - то могут возникать подводные камни одновременной работы двух и более ГПУ. Я наблюдал какие-то коллизии нестабильности на мамке с i9, где только 1 PCIE слот в процессор идет, хотя проц поддерживает 2 по х8.
Если планируется использование 3-4 гпу в будущем, то лучше взять Ryzen threadripper 1950x или что-то побыстрее на один поток. Разница между 5700x и 1950x в инференсе LLM может быть не сильно заметной - быть может в 20-30%, в то время как разница между 1950x и 7980X - может достигать до 30-40%.
UPADATE 6 апреля 2024 - На RTX 8000 load_in_8bit=True через свежие HF либы стал работать, что делает теперь эти карты очень выгодными для инференса больших моделей. У RTX 8000 нет Flash Attention 2
спасибо за статью, очень полезно
не до конца понял вопрос по процессорам, если допустим 2х 3090.
На процах типа 5700x всего 1 x16 PCle 4.0 линия. Все равно лучше он чем например Ryzen threadripper 1950x с чуть меньшей частотой, но 4 x16 PCle 3.0 линиями?
Если в системе не планируется больше, чем двух ГПУ, а материнская плата дает сразу два PCIE слота напрямую в процессор 5700x, то этот вариант будет быстрее работать даже по х8. Если же 1 слот идет в процессор, второй через чипсет - то могут возникать подводные камни одновременной работы двух и более ГПУ. Я наблюдал какие-то коллизии нестабильности на мамке с i9, где только 1 PCIE слот в процессор идет, хотя проц поддерживает 2 по х8.
Если планируется использование 3-4 гпу в будущем, то лучше взять Ryzen threadripper 1950x или что-то побыстрее на один поток.
Разница между 5700x и 1950x в инференсе LLM может быть не сильно заметной - быть может в 20-30%, в то время как разница между 1950x и 7980X - может достигать до 30-40%.
UPADATE 6 апреля 2024 - На RTX 8000 load_in_8bit=True через свежие HF либы стал работать, что делает теперь эти карты очень выгодными для инференса больших моделей. У RTX 8000 нет Flash Attention 2
Tesla P100:
18,7 TFLOPS (FP16)
9,3 TFLOPS (FP32)
4,7 TFLOPS (FP64)
Спасибо автору, очень насыщенная и полезная статья, много разрозненной информации собрано в одном месте.
Вопрос, что насчёт геймерской Amd rx 7800 xt - для глубокого обучения нейронки подходит?
Через гемор можно, потребует больше тех знаний и ударов в бубен, чем с нвидиа.