Делюсь личным опытом эксплуатации GPU, внедрения и использования нейронных сетей.
Каждая GPU имеет индивидуальные линии отсечения, где оптимальное сочетании мощности и производительности. Самый простой способ провести несколько измерений. Уменьшить мощность на 10%, запустить бенчмарк. И так несколько раз. Потом увидеть на графике где приемлема граница.
Современные движки инференса в том числе Ollama хорошо справляются с разным зоопарком GPU, какого сборища только нету в системах, все смешалось "люди Nvidia, кони Amd/Intel" ) Поэтому указанная конфигурация очень даже хороша и жизнерадостна. Возможно только при трейне, используя стандартные примеры кода, могут быть некоторые неудобства с тяжелыми LLM, но решаемые доработкой.
Нужно также учитывать, что инференс/трейн если задействовать все GPU будет замедляться и работать со скоростью младшей модели - 3090.
Мы ждем акт сверки после 10го числа. Пока все выглядит так, что вы дважды удержали за услуги сумму по не понятной логике. В то время как за 1 месяц уже должно быть все начислено и возвращено. Если окажется, что Яндекс нам ничего не должен - это будет позорная история...
Обращение №869018470906
Обращение №783565400544
А с нашим случаем разберитесь тоже, а то акция ваша, на которую мы не давали согласия, прошла за счет продавца.
1. Не рекомендую Tesla M10, очень слабая. К тому же там по 8Гб разделение на плате и в системе это будет 4 по 8 гб.
2. Tesla P40 24 Gb в принципе для инференса терпимая и дешевая тема часто в 2-3 раза слабее чем современные карты.
wizardlm-2 8x22B может иметь хорошую скорость потому что там только 8B при инференсе активируется, в этом особенность MOE архитектур.
3. Прирост может быть, но не для всех ГПУ это будет заметно, в основном это важно для моделей типа 3090, 4090, А100.
Вероятно с P40 никакого эффекта не будет, кроме случаев когда на процессор будут слои частично выгружаться, тогда да будет быстрее.
Если умеете готовить по охлаждению и есть на него материнка подходящая, то конечно норм вариант
Ресурсов таких не видел. Современные десктоп процы что интел что райзен имеют около 16-24 линий на проц. Вот надо попасть на 20+ хотя бы )
Попробуйте сначала с материнской платой определится по бюджету и чтобы на проц два слота было. Скорее всего они достаточно высокий ценник имеют, либо вообще нет в продаже.
Если в системе не планируется больше, чем двух ГПУ, а материнская плата дает сразу два PCIE слота напрямую в процессор 5700x, то этот вариант будет быстрее работать даже по х8. Если же 1 слот идет в процессор, второй через чипсет - то могут возникать подводные камни одновременной работы двух и более ГПУ. Я наблюдал какие-то коллизии нестабильности на мамке с i9, где только 1 PCIE слот в процессор идет, хотя проц поддерживает 2 по х8.
Если планируется использование 3-4 гпу в будущем, то лучше взять Ryzen threadripper 1950x или что-то побыстрее на один поток.
Разница между 5700x и 1950x в инференсе LLM может быть не сильно заметной - быть может в 20-30%, в то время как разница между 1950x и 7980X - может достигать до 30-40%.
Как обычно зависит от ТЗ и сроков ) Какие цели и метрики, на какие собственно типы вопросов нужны ответы и что за тематика. Большое количество это сколько? 10 000? 100 000? Какие модели можно использовать, только локальные или платные типа OpenAI. Пишите в ТГ пообщаемся.