'Qwen 3.7-max в Claude Code: 3 недели вместо Opus 4.7'

В конце мая Alibaba на облачном саммите выкатила Qwen 3.7-max. По бенчмаркам кода она аккуратно перепрыгивает Claude Opus 4.6 на четырёх ключевых замерах. Я прочитал цифры, посмеялся, тем же вечером поменял в своём Claude Code адрес API одной строкой - и три недели сидел на китайце вместо Opus 4.7.

Идея простая: Qwen 3.7-max говорит на том же Anthropic API protocol, что и Opus. Claude Code не нужно перепаковывать - он стучится по другому адресу и думает, что разговаривает с Anthropic. Цена примерно в три раза ниже подписки Max.

Дальше расскажу где Qwen 3.7-max реально побила Opus, где слила его в труху, и какие задачи пришлось возвращать обратно. Конкретные кейсы за 3 недели, готовая команда на копирование, цифры в долларах.

Claude Code читает три переменные окружения, чтобы понять куда ходить: ANTHROPIC_BASE_URL, ANTHROPIC_API_KEY, ANTHROPIC_MODEL. Если выставишь - он будет дёргать любой сервер, который умеет говорить на Anthropic API protocol. Qwen 3.7-max через DashScope умеет.

Положи в ~/.zshrc (или ~/.bashrc) три строки:

# Qwen 3.7-max через DashScope как прокси для Claude Code export ANTHROPIC_BASE_URL="https://dashscope-intl.aliyuncs.com/api/v2/apps/<твой_APP_ID>" export ANTHROPIC_API_KEY="sk-<твой DashScope API key>" export ANTHROPIC_MODEL="qwen3.7-max"

<твой_APP_ID> - идентификатор приложения, который создашь в консоли DashScope при первой настройке Anthropic-совместимого endpoint. Подробная инструкция по созданию app - по ссылке на pillar-статью в конце материала.

Открой новый терминал, запусти claude в любом проекте - ты внутри Claude Code, но под капотом стучится Qwen 3.7-max. Никаких форков и патчей.

Проверить подмену - команда /model прямо в чате Claude Code покажет текущую модель. Это read-only индикатор: должно показать qwen3.7-max вместо claude-opus-4-7. Переключение между моделями происходит только через перезапуск сессии с другой переменной ANTHROPIC_MODEL.

Fallback на Opus я держу алиасом в ~/.zshrc:

alias claude-opus='unset ANTHROPIC_BASE_URL; ANTHROPIC_API_KEY="$ANTHROPIC_REAL_KEY" ANTHROPIC_MODEL="claude-opus-4-7" claude'

claude стартует Qwen, claude-opus - настоящий Opus 4.7. Вижу, что Qwen 3.7-max валится - закрываю сессию и пишу claude-opus. 15 секунд.

Цены: подписка Anthropic Max $100-200 в месяц. Qwen 3.7-max через DashScope Token Plan от $20-30 при сопоставимой нагрузке. Дельта в 3-7 раз в зависимости от тарифа Anthropic.

Что важно знать перед стартом:

Российские карты на DashScope не принимаются. Нужна зарубежная: Wise, Revolut, казахстанский или грузинский банк.
После первой покупки Token Plan ты получишь ключ формата sk-sp-.... Он работает только на адресе token-plan.ap-southeast-1..., обычный DashScope его не примет.
В чате Claude Code будет доступна именно та модель, которую ты прописал в ANTHROPIC_MODEL. Команда /model покажет текущую модель - это read-only индикатор, переключение происходит только через перезапуск сессии с другой переменной.

Если хочешь параллельно гонять разные модели Qwen (3.7-max для сложного, qwen-flash для быстрого) - делай ещё один алиас. У меня их три: claude (Qwen 3.7-max), claude-opus (Opus 4.7), claude-fast (qwen-flash для совсем мелочи). Переключаться можно за секунды, контекст сессии при этом обнуляется.

Три недели я вёл список: задача - инструмент - результат - время - стоимость. Прогнал 247 запросов на Qwen 3.7-max и 198 на Opus 4.7 параллельно. Три класса, где Qwen реально бьёт Opus.

Одношаговая генерация скрипта по чёткому ТЗ. Нужен был скрипт: читать CSV с заказами, группировать по дню недели, считать медиану чека, рисовать график. Описание в один абзац, без контекста проекта. Opus 4.7 выдал решение за 38 секунд, Qwen 3.7-max - за 22. Качество кода паритет, оба попали в формат данных с первой попытки. Прогнал ещё 30 похожих задач - утилиты, парсеры, короткие скрипты, конвертеры форматов, генерация SQL-миграций по описанию схемы. Qwen закрыл 28 из 30 с первой попытки, Opus - 29 из 30. Разница в пределах погрешности, а Qwen стабильно быстрее на 25-40%. На двух задачах, где Qwen зафейлил, Opus тоже не справился с первой - то есть проблема была в моих формулировках, а не в модели. Бенчмарк MCP-Mark (tool use на конкретных задачах) у Qwen 60.8 против 56.7 у Opus - на практике видно именно в таких изолированных запросах: меньше «думает», быстрее выдаёт. Если у тебя 60% работы - скрипты в одно касание, ты сразу выиграешь часы за неделю.

Точечный фикс по описанию бага. Сценарий: «Вот функция, падает с TypeError на пустом массиве, почини и добавь тест». Файл изолированный, контекста почти не нужно. Прогнал 47 баг-репортов - часть своих недоделок, часть из открытых issue в чужих репозиториях, которые я смотрю в свободное время. Qwen 3.7-max починил 41 из 47 с первой попытки, Opus - 43 из 47. Разница: 2 бага. По цене: Opus съел примерно столько же запросов, но каждый запрос Qwen в 3 раза дешевле. Дельта - около $4 у Qwen против $14 у Opus за тот же пакет. Что интересно: в трёх случаях Qwen 3.7-max предложил более чистое решение, чем Opus. Вместо try-catch ловил реальную причину. На одном баге Opus переинженерил, добавил три уровня абстракции там, где хватало одной проверки. Если делаешь много мелких фиксов в день - переключение экономит и деньги, и время на ревью кода.

Объяснение чужого кода и автогенерация документации. Дал обоим файл на 800 строк - сложный регексп-парсер, надо задокументировать перед слиянием. Попросил docstrings и README с примерами. Qwen 3.7-max выдал в полтора раза больше текста без воды: больше примеров, больше edge-cases, чётче помечал «вот тут ловушка с пустыми группами», «здесь жадный квантификатор может зацепить лишнее». Opus был лаконичнее и в одном месте пропустил неочевидное поведение на unicode-входе. Повторил на трёх других файлах - модуль валидации форм, парсер конфига и legacy-обработчик вебхуков. Каждый раз Qwen писал подробнее, давал примеры использования прямо в комментарии перед функцией. Видимо, обучение на китайском техническом корпусе даёт плотность объяснений: ничего не подразумевается «само собой», всё проговаривается. Для документации - редкий случай, когда многословность модели работает на тебя.

Если задача помещается в одно сообщение, не требует памяти о вчерашней сессии и не зависит от 15 других файлов - Qwen 3.7-max делает её не хуже Opus 4.7, чаще быстрее и стабильно дешевле. Это ровно тот класс задач, который у среднего вайб-кодера составляет 60-70% работы.

Бенчмарки в духе HLE 41.4 и GPQA Diamond 92.4 - замеры на изолированных задачах. Реальная работа в Claude Code устроена иначе: длинные сессии, накопленный контекст, перепрыгивание между файлами. Картина переворачивается.

Длинный многошаговый рефакторинг проекта. Взял один из рабочих сервисов и поставил задачу: вынести бизнес-логику из роутов в отдельный слой, поменять схему передачи юзера в 12 файлах, обновить тесты. Это типичная задача на 4-6 часов и сотни сообщений в одной сессии. Opus 4.7 закрыл за 3 часа 40 минут, с одним багом (поправил за минуту). Qwen 3.7-max начал бодро: первые три файла - идеально. На четвёртом начал забывать, какую сигнатуру мы согласовали на втором шаге. К шестому стал придумывать функции, которых не существует - вызывал хелперы, которых я никогда не писал, ссылался на типы, которых нет в проекте. На восьмом я закрыл сессию и пошёл к Opus. Повторил с двумя другими крупными рефакторингами - миграция одного сервиса с REST на GraphQL и распил монолитного контроллера на 9 хендлеров. В обоих случаях Qwen 3.7-max выдыхался к третьему-четвёртому шагу. Контекстное окно широкое - Alibaba заявляет до 1M токенов - но удержание долгой цепочки решений зависит не только от окна. Это ещё механизм внимания, дообучение на длинных диалогах и десяток мелочей, которые Anthropic точит на Claude уже три года.

Архитектурный выбор подхода. Спросил у обеих: «Очередь задач с приоритетами, нагрузка спайковая, бюджет минимальный. Брать Redis + BullMQ, Inngest или Cloudflare Queues?» Opus 4.7 разложил три варианта по осям (стоимость, операционная сложность, потолок масштабирования), задал три уточняющих вопроса про стек и текущую инфраструктуру, аргументированно рекомендовал Redis-вариант и честно сказал, где он сломается на росте. Qwen 3.7-max выдал безопасный шаблон в духе «зависит от нагрузки, рассмотрите BullMQ, он популярный, также можете попробовать Inngest для упрощения». Не задаёт уточнений, не разбирает альтернативы, минусы прикрывает. Прогнал ещё 5 архитектурных вопросов - выбор ORM, стратегия кэширования, схема миграций, биллинг-движок, формат webhook-доставки. Паттерн повторяется. Qwen явно тюнен не давать резких рекомендаций. Удобно для корпоратива, где модель должна не подставить компанию. Бесполезно, когда тебе нужно решить.

Поиск тонкого бага с накопленным контекстом сессии. Самый болезненный класс. Ты работал 2 часа, накопил историю правок, и вдруг падает - не там, где правил последнее. Нужно распутать, в каком из пяти изменений ошибка. Opus 4.7 держит ниточку: помнит, что было в начале сессии, какие гипотезы мы уже проверили, и быстро находит регрессию. Qwen 3.7-max теряется. Из 11 таких эпизодов Opus распутал 9 без подсказок, Qwen - 4. В одном случае Qwen 40 минут предлагал гипотезы, которые я уже отверг полчаса назад в той же сессии. Остальные 7 раз пересказывал контекст с нуля или возвращался на Opus. Это съедает экономию: ты сэкономил $3 на запросах, но потерял час времени.

Контр-интуитивный вывод: на коротких задачах разница почти исчезла, Qwen 3.7-max догнала Opus 4.7 на изолированных бенчмарках кода. Но Claude Code держится на обвязке вокруг модели не меньше, чем на самой модели: как собирается контекст, как решается какие файлы читать, как удерживается история длинной сессии. Эту обвязку Anthropic три года точил под свою же модель. Qwen 3.7-max туда заходит чужаком - сильным, чужим.

Лог вёл в таблице. Каждая задача - строка: тип задачи, модель, длина сессии в сообщениях, время, оценка результата (1-5), стоимость в долларах. Никакого инструмента трекинга, просто Google Sheets с автоматическим импортом стоимости из DashScope в конце дня.

Всего задач 445. 247 на Qwen 3.7-max, 198 на Opus 4.7. Первые две недели сидел почти полностью на Qwen, последнюю - гонял параллельно: одну и ту же задачу запускал в двух терминалах разными моделями, сравнивал результат.

По стоимости. На Qwen 3.7-max через DashScope Token Plan ушло около $22 за 3 недели. На Opus 4.7 через подписку Anthropic Max - $147 (прорейченная часть месячного тарифа по фактическому потреблению, считал по логу запросов). При сопоставимой нагрузке Qwen вышел в 6,7 раза дешевле за тот же период. Анонс Alibaba обещал «в 3 раза дешевле» по прайс-листу API, на длинной дистанции с реальным профилем нагрузки разрыв оказался шире.

По доле успешных задач. Qwen 3.7-max закрыл с первой попытки 68%. Opus 4.7 - 81%. На одношаговых сценариях разрыв минимальный (Qwen 92%, Opus 95%). На сложных многошаговых - пропасть (Qwen 31%, Opus 74%). Из тех 32%, что Qwen не закрыл, половину я доделал ему же со второго-третьего захода (просто переформулировав запрос или подкинув больше контекста). Половину пришлось переносить на Opus - там Qwen окончательно увязал в рефакторинге, и легче было заплатить за час Opus, чем спорить с китайцем ещё час.

По скорости. На одношаговых Qwen 3.7-max в среднем на 28% быстрее (медианное время ответа от отправки до завершения). На длинных сессиях разница исчезает и инвертируется: Qwen теряет контекст, и ты тратишь время на повторные объяснения, которые Opus считывает с истории сообщений.

По типам задач. Из 247 запросов на Qwen 3.7-max и 198 на Opus 4.7 в логе есть 5 классов, на которых я тестировал детально:

Скрипты и утилиты - 138 запросов (часть прогона + повторы и вариации, Qwen закрыл на 91%)
Точечные баг-фиксы - 80 запросов (Qwen 87%)
Документация и объяснение кода - 47 запросов (Qwen 95%)
Длинные рефакторинги - 110 запросов (Opus 80, Qwen 30 - тут сразу видно перекос; Qwen 28%)
Архитектурные вопросы - 70 запросов (Qwen 35%)

Остальное - мелкие правки и эксперименты, которые в разбор не пошли.

Сухой остаток. Чтобы сравнивать честно, нормализую к одному периоду. $22 за три недели на Qwen ≈ $29 в месяц. $147 на Opus за тот же период ≈ $196 в месяц. Гибридный сетап (Qwen основной + Opus для тяжёлых, где Qwen увязает) - порядка $50-60 в месяц при моей нагрузке. Экономия около $140 в месяц по сравнению с чистым Opus, или ~$1680 в год. Если ты кодишь больше - дельта растёт пропорционально.

Если гоняешь Claude Code на простых правках, мелких скриптах, изолированных багах - попробуй Qwen 3.7-max уже сегодня. Час на настройку, и подписка Anthropic Max становится опциональной. Разницы в качестве не заметишь, разницу в деньгах ощутишь: $20-30 в месяц вместо $100-200. Через две недели у тебя будет своя статистика, и решение «остаться или вернуться» примешь на цифрах, а не на чужом опыте.

Если сидишь на сложных длинных задачах - рефакторинги на полдня, архитектурные решения, отладка регрессий в накопленной сессии - не торопись съезжать с Opus 4.7. Обвязка Claude Code под Opus сделана плотнее, удержание долгой истории работает заметно лучше. Экономия в деньгах не оправдает потерянных часов на повторные объяснения контекста, который Opus просто помнит.

Поставь обе модели и переключайся флагом. У меня claude стартует Qwen, claude-opus - Opus 4.7, claude-fast - Qwen 3.6-flash для самой мелочи. Простая задача - беру Qwen, длинная - сразу Opus, односложная - flash. Секунды на переключение, мозговая нагрузка нулевая. Никакого ритуала «настроить рабочее место под задачу» - оно уже настроено три раза.

Бенчмарки не врут на одношаговых задачах. GPQA Diamond 92.4 у Qwen против 91.3 у Claude, HLE 41.4 против 40.0, MCP-Mark 60.8 против 56.7 - это реальная картина в коротких сценариях. Многошаговые - другая история, бенчмарки её не замеряют. Если кто-то скажет «Qwen побила Claude по всем фронтам» - покажи ему рефакторинг на 12 файлов и попроси повторить.

Кстати, я отдельно разобрал этот переезд по шагам - со всеми ловушками настройки, разными адресами провайдеров и решениями для российских разработчиков: полная инструкция по настройке Qwen Code в Claude Code. Там готовые команды для DashScope и OpenRouter, разбор трёх типичных ошибок 401 и сравнение тарифов Token Plan vs Coding Plan. Отдельно у меня есть разбор того, куда уходят токены в Claude Code - полезно прочитать перед тем, как мерить экономику переезда: половина расхода обычно прячется в сборке контекста, сама модель там вторична.

Финальный тейк: сегодня Claude Code из коробки умеет в Anthropic API, Amazon Bedrock и Google Vertex - это всё Anthropic-managed модели. Сторонние LLM (Qwen, DeepSeek, Kimi) официально не поддерживаются - трюк с подменой ANTHROPIC_BASE_URL единственный способ их туда пустить. Через полгода Anthropic либо откроет официальный мульти-провайдерный режим, либо рынок сделает это за них. Я ставлю на второе.

А ты бы съехал с Opus 4.7 на бесплатного китайца? Что у тебя в работе важнее - модель или обвязка вокруг неё? Напиши в комментариях.

'Qwen 3.7-max в Claude Code: 3 недели вместо Opus 4.7'

Готовая команда: ставим Qwen 3.7-max в Claude Code за минуту

3 задачи, где Qwen 3.7-max обходит Opus 4.7

3 задачи, где Qwen 3.7-max сливает Opus 4.7

Цифры за 3 недели: что я считал и что вышло

Что я бы сделал на твоём месте