Лучший сетап для своей ИИ-компании в марте 2026
В марте 2026 я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов без людей в цикле. Стоимость всей «компании» — один сервер с GPU.
Делюсь конкретным сетапом: какие модели, на какие роли, почему именно эти, и сколько это стоит в гигабайтах VRAM.
Идея
Классическая софтверная команда — это роли: аналитик, архитектор, разработчик, тестировщик, ревьюер, безопасник. Каждая роль требует разных навыков. У людей это решается наймом. У LLM — подбором правильной модели под задачу.
Ключевой инсайт: не бывает «лучшей модели». Бывает лучшая модель для конкретной роли. Модель, которая лучше всех пишет код — посредственно рассуждает об архитектуре. Модель с лучшим reasoning — медленная и дорогая для генерации тестов. Один размер не подходит всем.
Поэтому вместо одного GPT-5 на все задачи я взял 6 open-source моделей на 9 ролей. И это оказалось дешевле, быстрее и качественнее.
Роли и модели: конкретика
Оркестратор — мозг системы. Принимает запрос, декомпозирует на подзадачи, маршрутизирует между агентами, собирает результат.
→ Qwen3.5-397B (17B active, MoE). Почему: лучший IFEval 92.6% (понимание инструкций) + лучший GPQA 88.4% (глубокое рассуждение). Оркестратор должен точно понимать, что от него хотят, и умно решать, кому делегировать. Эта модель — 397 миллиардов параметров, но активны только 17B на каждый токен. Frontier-качество при inference-стоимости маленькой модели. ~50 GB VRAM.
Архитектор — проектирует систему: компоненты, API, data flow, error handling.
→ DeepSeek V3.2 (37B active, 685B total). Почему: MMLU-Pro 85.0 (широкая эрудиция) + SWE-bench 73.1% (понимает реальные кодовые базы) + LiveCodeBench 83.3. Архитектор должен одновременно понимать и код, и бизнес-логику. V3.2 — единственная модель в топ-5 по обоим измерениям. ~85 GB.
Разработчик (Builder) — пишет код. Много кода. Быстро.
→ Qwen2.5-Coder-32B (dense). Почему: HumanEval 92.7% (уровень GPT-4o), Aider 73.7 (polyglot). Специализированная coding-модель. Не пытается быть хорошей «во всём» — она заточена под одно: генерировать рабочий код. При INT4 — всего 16 GB. Влезает на одну consumer-карточку.
Тестировщик — пишет тесты, ищет баги, проверяет edge cases.
→ Devstral Small 2 (24B, dense). SWE-bench 68.0%. Ключевое: эта модель понимает не изолированные функции, а целые кодовые базы. Она тренирована на real-world software engineering задачах. ~12 GB.
Критик (Quality Reviewer) — оценивает результат не по принципу «тесты прошли», а «это хорошо сделано».
→ GLM-4.7 (32B active, 355B total). tau-bench 87.4% — лучший показатель tool-use оценки среди всех open-source моделей. Критик должен понимать, как агенты используют инструменты, и оценивать качество этого использования. ~44 GB.
Безопасник (Security Auditor) — ищет уязвимости, тестирует prompt injection, проверяет permissions.
→ DeepSeek V3.2 (shared с Архитектором). Широкая база знаний + понимание кода = способность думать «как бы это сломать». Для бюджетного варианта: DeepSeek-R1-Qwen3-8B — 8B параметров, но AIME 87.5% reasoning. Adversarial thinking за 4 GB.
Трюк с шарингом
9 агентов ≠ 9 моделей. Агенты работают последовательно: пока Builder пишет код, Оркестратор ждёт. Пока Тестировщик проверяет — Builder свободен.
Модели, которые никогда не работают одновременно, делят один инстанс:
Бенчмарки, которые реально важны
Забудьте про MMLU и HellaSwag — они давно saturated. Вот что определяет выбор модели для агентной системы в 2026:
Сколько это стоит
Минимальный сетап (5 агентов, 3 модели):
24 гигабайта. Это одна RTX 4090. Пять агентов, которые умеют принять запрос, спроектировать, написать код, протестировать и отдать результат. На видеокарте, которая стоит в игровом компьютере.
Полный сетап (9 агентов, 6 моделей, все «best picks»): ~211 GB. Четыре серверных GPU.
Почему open-source, а не API
Три причины:
- Агентные системы жрут токены. Один запрос пользователя → 20-30x overhead на внутреннюю коммуникацию между агентами. При API-ценах это нежизнеспособно на масштабе.
- Latency. Оркестратор на критическом пути каждого запроса. Каждый вызов API — это сетевой roundtrip. При 5-10 внутренних вызовах на запрос задержки складываются.
- Контроль. В марте 2026 китайские лабы (Qwen, DeepSeek, GLM, Kimi, MiniMax) выпустили open-source модели MIT/Apache 2.0 лицензией, которые бьют GPT-4o по большинству бенчмарков. Зависимость от API больше не оправдана качеством.
MoE — главное открытие
Mixture-of-Experts изменил экономику. Вот что это значит на практике:
Все параметры загружены в память, но на каждый токен работает маленькая часть. Это как офис на 400 человек, где над каждой задачей работают 17 — но у каждой задачи это другие 17. Frontier-качество по цене маленькой модели.
Для агентной фабрики, где агенты работают последовательно, MoE идеален: вы платите за память (VRAM), но экономите на compute (скорость).
Что из этого следует
Март 2026 — это точка, где собрать свою «ИИ-компанию» стало задачей на выходные, а не на квартал.
- Модели есть — open-source frontier-уровня, MIT-лицензия.
- Инфра есть — SGLang, vLLM, Ollama на consumer hardware.
- Паттерны есть — orchestrator-worker, artifact-based коммуникация, feedback loops.
Осталось только собрать. Подобрать правильную модель на каждую роль — как нанять правильного специалиста. Только этот «специалист» стоит 4 GB видеопамяти и работает 24/7.
Самое интересное: эта команда из 9 агентов генерирует других агентов. Вы описываете, что вам нужно — «сделай мне агента поддержки, который интегрируется с Jira» — и фабрика проходит полный цикл: требования → архитектура → код → тесты → security review → деплой.
Фабрика, которая производит фабрики. На одном сервере. В 2026-м это не science fiction — это инженерная задача.
Все модели доступны на HuggingFace. Бенчмарки взяты с SWE-bench Verified, LiveBench, Berkeley Function Calling Leaderboard, LMSYS Arena (февраль-март 2026).
Мой Блог в ТГ:
Мой соло-проект гео-социальной мини-аппки в Телеграм: