Лаборатория ИИ за 200 тысяч: собрали сервер на двух Tesla V100

Команда Habr показала, как за 200 000 ₽ собрать локальный сервер для запуска больших языковых моделей на базе двух Tesla V100. Протестировали 128 моделей — от текстовых до генерации видео и изображений.

Пока рынок спорит о доступности вычислительных мощностей для работы с ИИ, на Habr опубликовали детальный разбор того, как за скромный бюджет развернуть полноценную лабораторию. Главный герой — видеокарта Tesla V100, которая в 2026 году стоит копейки на вторичном рынке, но всё ещё способна тянуть серьёзные нагрузки.

Tesla V100 — флагманская серверная карта NVIDIA образца 2017 года. Когда-то стоила сотни тысяч рублей, сейчас продаётся по 80-100 тысяч за штуку. Причина проста: рынок переключился на A100, H100 и другие карты с поддержкой новых инструкций. Для обучения нейросетей V100 устарела, но для inference (запуска обученных моделей) — всё ещё рабочая лошадка.

16 ГБ видеопамяти HBM2, пропускная способность 900 ГБ/с, 5120 CUDA-ядер — характеристики позволяют запускать модели до 13-20 миллиардов параметров с приемлемой скоростью. Две карты в связке дают 32 ГБ памяти, что открывает доступ к более крупным моделям.

Авторы честно перечислили слабые места. V100 не поддерживает инструкции FP8 и INT4, которые критичны для современных оптимизаций квантизации. Это означает, что модели работают медленнее, чем на новых картах, и занимают больше памяти. Нет аппаратного ускорения для Transformer Engine — тоже минус к производительности.

Энергопотребление — отдельная история. Одна V100 жрёт до 300 Вт под нагрузкой. Две карты плюс остальное железо — счётчик крутится заметно. Для офисной лаборатории это терпимо, для домашней стойки — вопрос.

Ключевая ценность публикации — практические тесты 128 моделей. Авторы прогнали текстовые LLM (от LLaMA до Mistral), модели генерации изображений (Stable Diffusion, FLUX), видео (CogVideoX) и даже мультимодальные системы. Для каждой указали конфигурацию запуска, скорость генерации токенов и потребление памяти.

- LLaMA 2 13B: 25-30 токенов в секунду, занимает 14 ГБ памяти

- Mistral 7B: 40-45 токенов в секунду, 8 ГБ памяти

- Stable Diffusion XL: 3-4 секунды на изображение 1024×1024

- CogVideoX: генерация видео возможна, но медленно — минуты на короткий ролик

Вывод простой: для экспериментов, внутренних инструментов и прототипов такая связка вполне работает. Для продакшена с высокой нагрузкой — придётся масштабировать или идти на облака.

Статья полезна технологам, которые хотят развернуть on-premise инфраструктуру для работы с ИИ без огромных бюджетов. Типичные сценарии: тестирование моделей перед переносом в облако, обучение команды, обработка чувствительных данных внутри контура компании, прототипирование продуктов.

Важный момент: железо вторичного рынка требует проверки. Автор честно пишет про риски покупки БУ-карт — можно нарваться на умирающую память или перегретый кристалл. Тестирование перед покупкой обязательно.

Для стартапов и средних команд это вариант войти в игру с минимальными вложениями. Полноценный ИИ-сервер за 200 тысяч — это реально, если понимаешь trade-offs и готов мириться с ограничениями устаревшего железа.

—

[ВКонтакте](https://vk.com/ciologia)

[Одноклассники](https://ok.ru/group/70000049644223)

[Дзен](https://dzen.ru/ciologia)

[Сетка](https://setka.ru/users/4e7ada8b-279e-41e9-846d-291aa630d204)

[Telegram](https://t.me/CIOlogia)

[Habr](https://habr.com/ru/users/CIOlogia/posts/)

[TenChat](https://tenchat.ru/ciologia)

[LinkedIn](https://www.linkedin.com/in/vladislav-prokopovich-bb808376/)

Лаборатория ИИ за 200 тысяч: собрали сервер на двух Tesla V100

Почему V100 и почему так дёшево

Реальные ограничения

Бенчмарки: что тянет и с какой скоростью

Кому это нужно