Лаборатория ИИ за 200 тысяч: собрали сервер на двух Tesla V100
Команда Habr показала, как за 200 000 ₽ собрать локальный сервер для запуска больших языковых моделей на базе двух Tesla V100. Протестировали 128 моделей — от текстовых до генерации видео и изображений.
Пока рынок спорит о доступности вычислительных мощностей для работы с ИИ, на Habr опубликовали детальный разбор того, как за скромный бюджет развернуть полноценную лабораторию. Главный герой — видеокарта Tesla V100, которая в 2026 году стоит копейки на вторичном рынке, но всё ещё способна тянуть серьёзные нагрузки.
Почему V100 и почему так дёшево
Tesla V100 — флагманская серверная карта NVIDIA образца 2017 года. Когда-то стоила сотни тысяч рублей, сейчас продаётся по 80-100 тысяч за штуку. Причина проста: рынок переключился на A100, H100 и другие карты с поддержкой новых инструкций. Для обучения нейросетей V100 устарела, но для inference (запуска обученных моделей) — всё ещё рабочая лошадка.
16 ГБ видеопамяти HBM2, пропускная способность 900 ГБ/с, 5120 CUDA-ядер — характеристики позволяют запускать модели до 13-20 миллиардов параметров с приемлемой скоростью. Две карты в связке дают 32 ГБ памяти, что открывает доступ к более крупным моделям.
Реальные ограничения
Авторы честно перечислили слабые места. V100 не поддерживает инструкции FP8 и INT4, которые критичны для современных оптимизаций квантизации. Это означает, что модели работают медленнее, чем на новых картах, и занимают больше памяти. Нет аппаратного ускорения для Transformer Engine — тоже минус к производительности.
Энергопотребление — отдельная история. Одна V100 жрёт до 300 Вт под нагрузкой. Две карты плюс остальное железо — счётчик крутится заметно. Для офисной лаборатории это терпимо, для домашней стойки — вопрос.
Бенчмарки: что тянет и с какой скоростью
Ключевая ценность публикации — практические тесты 128 моделей. Авторы прогнали текстовые LLM (от LLaMA до Mistral), модели генерации изображений (Stable Diffusion, FLUX), видео (CogVideoX) и даже мультимодальные системы. Для каждой указали конфигурацию запуска, скорость генерации токенов и потребление памяти.
- LLaMA 2 13B: 25-30 токенов в секунду, занимает 14 ГБ памяти
- Mistral 7B: 40-45 токенов в секунду, 8 ГБ памяти
- Stable Diffusion XL: 3-4 секунды на изображение 1024×1024
- CogVideoX: генерация видео возможна, но медленно — минуты на короткий ролик
Вывод простой: для экспериментов, внутренних инструментов и прототипов такая связка вполне работает. Для продакшена с высокой нагрузкой — придётся масштабировать или идти на облака.
Кому это нужно
Статья полезна технологам, которые хотят развернуть on-premise инфраструктуру для работы с ИИ без огромных бюджетов. Типичные сценарии: тестирование моделей перед переносом в облако, обучение команды, обработка чувствительных данных внутри контура компании, прототипирование продуктов.
Важный момент: железо вторичного рынка требует проверки. Автор честно пишет про риски покупки БУ-карт — можно нарваться на умирающую память или перегретый кристалл. Тестирование перед покупкой обязательно.
Для стартапов и средних команд это вариант войти в игру с минимальными вложениями. Полноценный ИИ-сервер за 200 тысяч — это реально, если понимаешь trade-offs и готов мириться с ограничениями устаревшего железа.
—
[ВКонтакте](https://vk.com/ciologia)
[Одноклассники](https://ok.ru/group/70000049644223)
[Дзен](https://dzen.ru/ciologia)
[Сетка](https://setka.ru/users/4e7ada8b-279e-41e9-846d-291aa630d204)
[Telegram](https://t.me/CIOlogia)
[Habr](https://habr.com/ru/users/CIOlogia/posts/)
[TenChat](https://tenchat.ru/ciologia)
[LinkedIn](https://www.linkedin.com/in/vladislav-prokopovich-bb808376/)