Другой автор делает вывод, что архитектура Intel Sapphire Rapids, оснащенная расширенными матричными расширениями и AVX512-FP16, улучшает матричные операции, необходимые для глубокого обучения. Кроме того, благодаря использованию расширения Intel Extension for PyTorch (IPEX) пользователи могут без особых усилий оптимизировать PyTorch для процессоров Intel, что позволяет значительно повысить производительность. Бенчмарки показывают, что Sapphire Rapids обеспечивает производительность вычислений, сравнимую с GPU, при меньшей стоимости и лучшей доступности. Таким образом, использование центральных процессоров для вычислений в производственных нагрузках ИИ/МЛ на предприятиях может быть выгодно как с практической, так и с экономической точки зрения.
спасибо за статью, очень полезно
не до конца понял вопрос по процессорам, если допустим 2х 3090.
На процах типа 5700x всего 1 x16 PCle 4.0 линия. Все равно лучше он чем например Ryzen threadripper 1950x с чуть меньшей частотой, но 4 x16 PCle 3.0 линиями?
Если в системе не планируется больше, чем двух ГПУ, а материнская плата дает сразу два PCIE слота напрямую в процессор 5700x, то этот вариант будет быстрее работать даже по х8. Если же 1 слот идет в процессор, второй через чипсет - то могут возникать подводные камни одновременной работы двух и более ГПУ. Я наблюдал какие-то коллизии нестабильности на мамке с i9, где только 1 PCIE слот в процессор идет, хотя проц поддерживает 2 по х8.
Если планируется использование 3-4 гпу в будущем, то лучше взять Ryzen threadripper 1950x или что-то побыстрее на один поток.
Разница между 5700x и 1950x в инференсе LLM может быть не сильно заметной - быть может в 20-30%, в то время как разница между 1950x и 7980X - может достигать до 30-40%.
UPADATE 6 апреля 2024 - На RTX 8000 load_in_8bit=True через свежие HF либы стал работать, что делает теперь эти карты очень выгодными для инференса больших моделей. У RTX 8000 нет Flash Attention 2
Tesla P100:
18,7 TFLOPS (FP16)
9,3 TFLOPS (FP32)
4,7 TFLOPS (FP64)
Спасибо автору, очень насыщенная и полезная статья, много разрозненной информации собрано в одном месте.
Вопрос, что насчёт геймерской Amd rx 7800 xt - для глубокого обучения нейронки подходит?
Через гемор можно, потребует больше тех знаний и ударов в бубен, чем с нвидиа.