Другой автор делает вывод, что архитектура Intel Sapphire Rapids, оснащенная расширенными матричными расширениями и AVX512-FP16, улучшает матричные операции, необходимые для глубокого обучения. Кроме того, благодаря использованию расширения Intel Extension for PyTorch (IPEX) пользователи могут без особых усилий оптимизировать PyTorch для процессоров Intel, что позволяет значительно повысить производительность. Бенчмарки показывают, что Sapphire Rapids обеспечивает производительность вычислений, сравнимую с GPU, при меньшей стоимости и лучшей доступности. Таким образом, использование центральных процессоров для вычислений в производственных нагрузках ИИ/МЛ на предприятиях может быть выгодно как с практической, так и с экономической точки зрения.
UPADATE 6 апреля 2024 - На RTX 8000 load_in_8bit=True через свежие HF либы стал работать, что делает теперь эти карты очень выгодными для инференса больших моделей. У RTX 8000 нет Flash Attention 2
Tesla P100:
18,7 TFLOPS (FP16)
9,3 TFLOPS (FP32)
4,7 TFLOPS (FP64)
Спасибо автору, очень насыщенная и полезная статья, много разрозненной информации собрано в одном месте.
Вопрос, что насчёт геймерской Amd rx 7800 xt - для глубокого обучения нейронки подходит?
Через гемор можно, потребует больше тех знаний и ударов в бубен, чем с нвидиа.