Локальный AI-кодинг в 2026: тестирую Qwen3 35B на RTX, разбираю настройку Cline и пишу Pomodoro
Подписки на Cursor и Copilot за последний год выросли, лимиты ужесточились, а вопрос «куда уходит мой код» стал звучать всё чаще. Я решил проверить, насколько готова альтернатива — локальная LLM на домашнем ПК. Конфиг подопытного: i7-14700K, 32GB RAM, 16GB VRAM. Модель — Qwen3 35B A3B в кванте Q3_K_S. Архитектура MoE здесь ключевая: при 35B общих параметров активны всего ~3B, поэтому модель такого размера реально работает на потребительской видеокарте.
Стек. В качестве бэкенда взял LM Studio — проще, чем llama.cpp руками, и сразу даёт OpenAI-совместимый endpoint. Контекст выставил 32k (больше не влезает без жёсткой просадки скорости), часть экспертов улетает в RAM. В VS Code поставил расширение Cline и подключил его к http://localhost:1234/v1. Главная грабля — системный промпт Cline тяжёлый, около 10k токенов, поэтому каждый запрос стартует с задержкой на prompt processing. Предварительно проверил скорость генерации локально — 70 tok/s. Так что можно комфортно работать.
Почему именно Q3_K_S. Квантизация — это компромисс между качеством и размером модели в памяти. Пробовал Q4_K_M — он точнее, но не оставлял запаса под контекст и Cline начинал тормозить уже на втором tool call. Q3_K_S садится в 16GB с запасом, потери в качестве на коде минимальные — модель всё ещё уверенно понимает структуру проектов и пишет рабочий C#. Для домашнего железа это сладкая точка.
Задача. Один промпт, без итераций: Pomodoro-таймер на React + ASP.NET Core Web API.
Результат. Генерация заняла 15–20 минут на полный цикл, и за это время Cline собрал не просто Pomodoro-таймер, а полноценный проект с разделением на бэкенд и фронтенд. На бэкенде — .NET 10, два отдельных сервиса с необходимыми контроллерами, модель сама подняла базу данных, написала и накатила миграции, после чего проверила, что проект билдится без ошибок. Фронтенд на React + Vite тоже запустился без вмешательства. Скорость генерации при этом комфортная: текст печатается быстрее, чем успеваешь читать, паузы заметны только на старте — пока модель «осмысляет» большой системный промпт Cline. VRAM забита почти под завязку, совсем немного модели уехала в обычную оперативку — это ожидаемо для 35B на 16GB видеопамяти.
Из косяков — две основные кнопки на UI получились не того цвета, что был в требованиях; одного уточняющего промпта хватило, чтобы модель их перекрасила. По функциональности всё работало корректно сразу: таймер, переключение между рабочими и отдыхающими циклами, обращения к API — без правок руками.
А что облако? Тот же промпт, отправленный в Claude Sonnet, отрабатывает за 1,5–2 минуты вместо моих 20. Качество кода чуть выше, ошибок при генерации меньше. Но это сравнение немного нечестное: за облако ты платишь подпиской, отдаёшь весь код провайдеру и зависишь от лимитов. Локалка работает медленнее, но крутится у тебя дома, не считает токены и не уйдёт в downtime.
Где локалка пока не тянет. Не питаю иллюзий: на больших проектах с длинным контекстом (когда нужно держать в голове 200k+ токенов кода) и на сложных архитектурных задачах облако пока вне конкуренции. Также проседает работа с редкими языками и совсем свежими фреймворками — модель просто не видела их в обучении в достаточном объёме. Для рутины, прототипов, типовых CRUD-сервисов и фронтов — отлично. Для серьёзной отладки legacy-кода на миллион строк — пока нет. Но также можно умно выбирать файлы с которыми работаешь.
Для локальной 35B-модели на потребительской видеокарте это сильный результат. Не «игрушка показала, что что-то умеет», а реальный проект с двумя слоями, базой и UI, собранный за один заход с минимальными правками. Да, выполнялось долго по сравнению с облачными LLM, но качество меня очень сильно удивило — особенно тот факт, что модель сама прогнала миграции и проверила сборку, а не вывалила код и ушла. Если у вас уже есть железо уровня 16GB VRAM — попробовать стоит однозначно.
Больше про LLM и AI — в нашем Telegram-канале (@devgeek_sh). Разбираем новые модели, делимся опытом и полезными находками.