Production AI сервер за ₽0: как я собрал машину из хлама, которая генерирует дизайны для лазера

Помните мою статью про локальные LLM за 15 минут? Оказалось, люди хотят не просто знать про ИИ в теории — они хотят его собрать и запустить прямо сейчас. Результат: я потратил выходной на сборку production-grade ML сервера. Без облака. Без подписок. Без зависимости от OpenAI.

Главное: все комплектующие лежали дома без дела. Z390-D материнка, 32GB памяти, четыре SSD — год собирал для других проектов. Решил: зачем этому пыль собирать? Собрал production сервер.

Это звучит странно для 2025 года, но две RTX 2060 (2019 года выпуска) работают лучше, чем я ожидал.

RTX 1060 — это прошлый век. Нет NVLINK, не синхронизируются две карты, CUDA Compute Capability 6.1 (слишком старая архитектура). Результат: на 1060 Stable Diffusion генерирует 512x512 за 60+ секунд.

RTX 2060 — другое дело. Tensor Cores, CUDA 7.5, Memory bandwidth на 25% выше. Главное: две карты видят друг друга через PCIe. На обеих 2060 Stable Diffusion генерирует за 35-40 секунд. Итого: 12GB VRAM на двух картах, которые работают параллельно.

BIOS Z390-D (вот это было больновато):

Setting → IO Ports:
Initial Display Output: PCIEX16
Internal Graphics: Disabled
Setting → Miscellaneous:
Re-Size BAR: Enabled
Tweaker → AI Tweaker:
XMP Profile 1: Enabled

Обе GPU видны в nvidia-smi, работают без конфликтов.

Главное не смешивать горячие и холодные данные. Моя схема:

C: (SSDх2 1ТБ) — ОС + Python (RAID 1 защита!)*
D: (HDD 2ТБ) — архив исходных изображений
E: (HDD 2ТБ) — архив готовых результатов
F: (SSD 1ТБ) — кэш ML операций
G: (SSD 1ТБ) — модели Stable Diffusion + YOLOv8 + датасеты

*Вот тут спас Intel EZ RAID. Если накроется один SSD — данные на втором.

40 минут — вот сколько занял весь процесс:

Python 3.12 (5 минут)
Виртуальное окружение venv (3 минуты)
PyTorch + CUDA 11.8 (15 минут — скачивается 2-3GB)
ML библиотеки (5 минут)
Первый тест (10 минут)

Проверка PyTorch:

python -c "import torch; print(torch.cuda.is_available())"
→ True
python -c "import torch; print(f'GPUs: {torch.cuda.device_count()}')"
→ GPUs: 2

Проверка работы генеративной функции и YOLO

Первый тест Stable Diffusion — и РАБОТАЕТ. Изображение 512x512 сгенерировалось за 38 секунд. Обе GPU синхронизируются без проблем.

Система готова к трём вещам:

Локальные LLM (DeepSeek, Llama) — анализ документов, браinstorming, без облака
Генерация дизайнов (Stable Diffusion) — для лазерной гравировки на ACMER P3
Компьютерное зрение (YOLOv8) — контроль качества готовых изделий

Это то, ради чего мы всё собирали.

RTX 2060 Локально
Генерация 512x512 38 сек
Стоимость за 1000 операций ₽0
Конфиденциальность 100%
Работает без интернета ✅ Да
ChatGPT API
Генерация 512x512 20-30 сек (интернет)
Стоимость за 1000 операций ~50 рублей
Конфиденциальность 0% (облако)
Работает без интернета ❌ Нет

Локальное ИИ — это больше не фантастика. Это инструмент.

Кто пробовал собирать ML сервер на старых комплектующих? Какие подводные камни встретили? Пишите в комментарии — напишу Часть 2 про подключение лазера.

t.me

Громов -Технологии и ИИ

#MachineLearning #AI #Hardware #DIY #PyTorch #StableDiffusion #ACMER

Production AI сервер за ₽0: как я собрал машину из хлама, которая генерирует дизайны для лазера

Железо: почему RTX 2060, а не RTX 1060?

Диски: 6 дисков — 4 разные задачи

Software: Python 3.12 + PyTorch

Что дальше?

Локально vs облако

Подпишитесь на мой Telegram канал!