Лучший сетап для своей ИИ-компании в марте 2026

В марте 2026 я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов без людей в цикле. Стоимость всей «компании» — один сервер с GPU.

Делюсь конкретным сетапом: какие модели, на какие роли, почему именно эти, и сколько это стоит в гигабайтах VRAM.

Пульт управления ИИ-фабрикой на кластере A100x8 (mock)

Классическая софтверная команда — это роли: аналитик, архитектор, разработчик, тестировщик, ревьюер, безопасник. Каждая роль требует разных навыков. У людей это решается наймом. У LLM — подбором правильной модели под задачу.

Ключевой инсайт: не бывает «лучшей модели». Бывает лучшая модель для конкретной роли. Модель, которая лучше всех пишет код — посредственно рассуждает об архитектуре. Модель с лучшим reasoning — медленная и дорогая для генерации тестов. Один размер не подходит всем.

Поэтому вместо одного GPT-5 на все задачи я взял 6 open-source моделей на 9 ролей. И это оказалось дешевле, быстрее и качественнее.

Оркестратор — мозг системы. Принимает запрос, декомпозирует на подзадачи, маршрутизирует между агентами, собирает результат.

→ Qwen3.5-397B (17B active, MoE). Почему: лучший IFEval 92.6% (понимание инструкций) + лучший GPQA 88.4% (глубокое рассуждение). Оркестратор должен точно понимать, что от него хотят, и умно решать, кому делегировать. Эта модель — 397 миллиардов параметров, но активны только 17B на каждый токен. Frontier-качество при inference-стоимости маленькой модели. ~50 GB VRAM.

Архитектор — проектирует систему: компоненты, API, data flow, error handling.

→ DeepSeek V3.2 (37B active, 685B total). Почему: MMLU-Pro 85.0 (широкая эрудиция) + SWE-bench 73.1% (понимает реальные кодовые базы) + LiveCodeBench 83.3. Архитектор должен одновременно понимать и код, и бизнес-логику. V3.2 — единственная модель в топ-5 по обоим измерениям. ~85 GB.

Разработчик (Builder) — пишет код. Много кода. Быстро.

→ Qwen2.5-Coder-32B (dense). Почему: HumanEval 92.7% (уровень GPT-4o), Aider 73.7 (polyglot). Специализированная coding-модель. Не пытается быть хорошей «во всём» — она заточена под одно: генерировать рабочий код. При INT4 — всего 16 GB. Влезает на одну consumer-карточку.

Тестировщик — пишет тесты, ищет баги, проверяет edge cases.

→ Devstral Small 2 (24B, dense). SWE-bench 68.0%. Ключевое: эта модель понимает не изолированные функции, а целые кодовые базы. Она тренирована на real-world software engineering задачах. ~12 GB.

Критик (Quality Reviewer) — оценивает результат не по принципу «тесты прошли», а «это хорошо сделано».

→ GLM-4.7 (32B active, 355B total). tau-bench 87.4% — лучший показатель tool-use оценки среди всех open-source моделей. Критик должен понимать, как агенты используют инструменты, и оценивать качество этого использования. ~44 GB.

Безопасник (Security Auditor) — ищет уязвимости, тестирует prompt injection, проверяет permissions.

→ DeepSeek V3.2 (shared с Архитектором). Широкая база знаний + понимание кода = способность думать «как бы это сломать». Для бюджетного варианта: DeepSeek-R1-Qwen3-8B — 8B параметров, но AIME 87.5% reasoning. Adversarial thinking за 4 GB.

Лучший сетап для своей ИИ-компании в марте 2026

9 агентов ≠ 9 моделей. Агенты работают последовательно: пока Builder пишет код, Оркестратор ждёт. Пока Тестировщик проверяет — Builder свободен.

Модели, которые никогда не работают одновременно, делят один инстанс:

<b>9 логических агентов</b> → <b>4-5 физических инстансов</b>. Это принципиально: не нужен GPU на каждого агента.

Забудьте про MMLU и HellaSwag — они давно saturated. Вот что определяет выбор модели для агентной системы в 2026:

Минимальный сетап (5 агентов, 3 модели):

24 гигабайта. Это одна RTX 4090. Пять агентов, которые умеют принять запрос, спроектировать, написать код, протестировать и отдать результат. На видеокарте, которая стоит в игровом компьютере.

Полный сетап (9 агентов, 6 моделей, все «best picks»): ~211 GB. Четыре серверных GPU.

Три причины:

Агентные системы жрут токены. Один запрос пользователя → 20-30x overhead на внутреннюю коммуникацию между агентами. При API-ценах это нежизнеспособно на масштабе.
Latency. Оркестратор на критическом пути каждого запроса. Каждый вызов API — это сетевой roundtrip. При 5-10 внутренних вызовах на запрос задержки складываются.
Контроль. В марте 2026 китайские лабы (Qwen, DeepSeek, GLM, Kimi, MiniMax) выпустили open-source модели MIT/Apache 2.0 лицензией, которые бьют GPT-4o по большинству бенчмарков. Зависимость от API больше не оправдана качеством.

Mixture-of-Experts изменил экономику. Вот что это значит на практике:

Все параметры загружены в память, но на каждый токен работает маленькая часть. Это как офис на 400 человек, где над каждой задачей работают 17 — но у каждой задачи это другие 17. Frontier-качество по цене маленькой модели.

Для агентной фабрики, где агенты работают последовательно, MoE идеален: вы платите за память (VRAM), но экономите на compute (скорость).

Март 2026 — это точка, где собрать свою «ИИ-компанию» стало задачей на выходные, а не на квартал.

Модели есть — open-source frontier-уровня, MIT-лицензия.
Инфра есть — SGLang, vLLM, Ollama на consumer hardware.
Паттерны есть — orchestrator-worker, artifact-based коммуникация, feedback loops.

Осталось только собрать. Подобрать правильную модель на каждую роль — как нанять правильного специалиста. Только этот «специалист» стоит 4 GB видеопамяти и работает 24/7.

Самое интересное: эта команда из 9 агентов генерирует других агентов. Вы описываете, что вам нужно — «сделай мне агента поддержки, который интегрируется с Jira» — и фабрика проходит полный цикл: требования → архитектура → код → тесты → security review → деплой.

Фабрика, которая производит фабрики. На одном сервере. В 2026-м это не science fiction — это инженерная задача.

Все модели доступны на HuggingFace. Бенчмарки взяты с SWE-bench Verified, LiveBench, Berkeley Function Calling Leaderboard, LMSYS Arena (февраль-март 2026).

Мой Блог в ТГ: