Как собрать свой сервер для LLM из Г.. и палок.

P102 + P104 (36 GB VRAM). Одна карта подключена через нормальный PCIe, часть — через USB-райзера (x1).
Карты на авито стоили p104-100 - по 1300 руб за шт и 2500 за каждую P102-100
Решил не мелочиться и скачал версии в Q8 (8 бит).
Это почти оригинальное качество
1 Qwen3:30b-a3b-q8_0 (31ГБ)
🚀 Скорость: 26.84 ток/сек

2 Qwen3:32b-q8_0 (33ГБ)
🐢 Скорость: 6.66 ток/сек

А вот тут архитектура уперлась в шину. Разница в 2 ГБ веса, а падение скорости в 4 раза.
3 qwen3:30b-a3b-thinking-2507-q8_0 (30.3ГБ)
🚀 Скорость: 26.26 ток/сек

Вывод:
Железо за копейки ТАЩИТ, если правильно подобрать модель. 26 токенов в секунду на Q8 — это уровень Enterprise-серверов, который я получил у себя на балконе.

Для чего эти тесты?

Есть интересная идейка. Хочу собрать собственный сервер для LLM, буквально из говна и палок (ну почти), чтобы гонять жирные модели на 50+ гигов. Бюджет — смешной, эффективность — посмотрим.

Что имеем на старте?
• Цель: Запустить 6 карт (ориентируюсь на P102-100 ).
• Железо: Материнка уже есть, поддерживает 6 слотов. Блок питания на 1800W тоже в наличии — там выходы идеально под 6 карт.
• Корпус: Нашел на Авито майнинговый кейс. Сейчас всё, что касается майнинга, стоит копейки. Грех не воспользоваться.

Собственно, в чем план:
В начале все протестировать на том, что уже есть. И если эксперимент будет удачный, то получится докупить определенные части, и собрать всё это "на коленке" тысяч за 50-70 рублей.

Но есть нюанс (куда же без него):
Карты хотят PCI-E x4 для максимальной скорости, а обычные майнинговые райзера выдают только x1. Это, конечно, бутылочное горлышко, скорость загрузки моделей может пострадать. Но для первого теста — сойдет. (дальше нужно будет удлинители PCI брать или заменить мать.

Зачем мне это надо?
Майнинг — это про "вентиляторы крутятся, деньги мутятся", а тут история другая. Деньги система не печатает, но дает тебе в руки мощнейший инструмент. Я сейчас тестирую Gemini 3 pro и понимаю: через 2-3 года такие будут LLM с такой же производительностью запустятся на обычных машинах.
По факту, я за 60к собираю машину, которая может освободить у меня очень много времени. Жрет она только электричество и только в момент нагрузки.
У меня множество своих проектов, один из них администрирование vds и я регулярно просматриваю логи сам. В последнее время это делает ИИ, но я за это плачу. И вот сейчас порог расхода токенов у меня превышает траты, что я могу сделать на локальной машине.