Тестирую GLM 4.6 через сервис cto.new

Недавно я решил проверить, как GLM-4.6 справляется с задачами разработки, и выбрал для этого платформу cto.new — агент-кодёр, который сам планирует, пишет код, делает пулл-реквесты. Цель: посмотреть, насколько реально можно ускорить работу и какова будет “качество” с такой связкой. GLM-4.6 заявлена как модель с расширенным контекстным окном (~200 000 токенов), улучшенной кодировкой, агентными возможностями.

Первоначальная идея была протестировать китайца с американцем - клодом соннет 4.5, поэтому для этих целей выбрал платформу cto.new (для тех кто не знает, это сервис где бесплатно есть топовые модельки, но он закрыт пока, запуск ожидается к Новому Году. Пока работает только через инвайты, за инвайт спасибо флику, он раздает инвайты в чате телеграма).

Зарегистрировался в cto.new, подключил тестовый репозиторий (проект фронтенда + бэкенд).
Проверил, что в cto.new можно выбрать/указать модель; в некоторых обсуждениях видно, что “glm_4_6” появляется как опция.
Выбрал задачу: «добавить эндпоинт /api/status, возвращающий JSON с версией сервиса и uptime, покрыть тестом».
В настройках Task Runner указал: среда Node.js + Typescript + тесты на Jest.
Включил GLM-4.6 как бэкенд модели (через API или интеграцию) и задал параметры: умеренная температура, max_tokens около 500-1000, context включал репозиторий + задачу.

Модель (через агент cto.new) сначала предложила план:

проанализировать существующий код сервиса
определить место добавления эндпоинта
написать контроллер, маршрут, тест, обновить документацию
сделать PR, получить ревью (автоматически или вручную) В плане — 4 шага. Это показало, что GLM-4.6 “понимает” задачу не просто как генерацию функции, но как мини-workflow.

Код получился читаемым: Typescript, Express.js, добавлен endpoint, начался тест.
Тест-файл присутствовал, это однозначно лайк)
Стиль кода: аккуратный, но были моменты: импорт модулей не всегда в том стиле, как у моего проекта — пришлось вручную поправить.
Время: с момента постановки задачи до PR прошло меньше чем ожидалось (~20 мин вместо привычных ~40-50 мин).

Пройдены тесты, всё успешно.
Код рецензирован. В ветке были комментарии: “хорошо, только переименуй переменную uptimeMs в uptimeMilliseconds для единства”.
После правки — обязательно мёрж (это обновление скрипта в гитхабе).
Удивило: агент предложил в описании PR добавить “Added GET /api/status for service version and uptime” + менял «changelog». Такие детали часто делают вручную.

Изменения: GLM-4.6 заявлена как модель с превосходной контекстной способностью, агентным поведением и хорошей кодировкой.
Экономия времени. Вместо того, чтобы вручную писать и тестировать, многое сделано автоматически.
Хорошее интегрирование: cto.new смог использовать “модель-агент” + репозиторий + среду запуска, что показало мощь такого стека.
Потенциал: если внедрить подобную связку в команду, можно снять много рутинных задач.

Нужно было вручную править стиль кода (имена, форматирование) — модель не всегда знает ваши “нормы”.
Хотя GLM-4.6 хороша, иногда код выходил “более общий”, чем хотелось — например, логирование не настроено под мой проект, пришлось добавить.
Время: модель работала быстрее, но “включение” агента, проверка среды, сборка — всё равно требует человека.
Стоимость/ресурсы: GLM-4.6 — мощная модель, и её использование (если платно) может быть дороже.
Вопрос безопасности: подключение репозитория + разрешения агенту — требует доверия.
Ну и в довесок, часть кода правил клодом. Да, может быть это немного нечестно, но я вижу в этом более правильное использование LLM-ки.

GLM 4.6 хвалится огромным контекстом, но когда подключал проектам в 150 файлов, то поведени было непредсказуемым. Иногда модель «теряет» связь между модулями:

Путает пути импортов.
Не замечает, что функция уже реализована.
Генерирует повторяющиеся классы или лишние обёртки.

Такое ощущение, что контекст-то она “читает”, но не всегда системно осмысливает. В больших проектах это превращается в: “красиво написал, но не туда вставил”.

GLM 4.6 пишет очень аккуратный, архитектурно-чистый код, но иногда чересчур “академичный”. Типичный пример:

“Добавь логирование в middleware.” Она создаёт целый модуль логгера с конфигурацией, интерфейсом, фабрикой и DI-внедрением — хотя нужно было просто console.log().

То есть модель умеет “думать как архитектор”, но не всегда как практичный инженер.

Связка cto.new + GLM-4.6 — это реально интересный способ программировать, а не просто автодополнение кода. При правильной настройке вы получите помощника, который не просто “пишет функцию”, а “берёт задачу, планирует, реализует, тестирует, делает PR”.
Мое личное мнение)

Если бы давал оценку — я бы поставил эту комбинацию как «4 из 5»: сильный инструмент, но ещё пока требует иногда отладки — отчистки кода, настройки проекта, контроля.

Как думаете, в чем основная беда GLM 4.6?

Мое личное мнение - что она обучалась на датасетах до 2025 года, т.е. по сути два года уже прошло, и пора бы обновиться. Как считаете?

И типичный загон -ногда GLM 4.6 делает “умное лицо” и не признаёт, что чего-то не знает. Она может сгенерировать код с несуществующей библиотекой или методом, будто уверена, что так и должно быть. В клоде такого нет.

Типичная ситуация:

“fetchDataAsyncSafe()” — звучит логично, но такой функции нет ни в JS, ни в вашем коде.

В отличие от GPT-4 / 5, которая чаще ставит комментарий “⚠ псевдокод, проверьте зависимости”, GLM 4.6 этого почти не делает.

Я думаю, для прототипирования — идеально. Пишет красиво, быстро, можно увидеть концепт.
Для обучения и pet-проектов — вдохновляет, помогает разобраться в архитектуре.
Для производственных систем — пока рано пускать её без ревью. Лучше использовать как “second pair of hands”, а не как “главного инженера”. Надеюсь, китайцы удивят нас новой моделью GLM 5.0 в скором будущем.

Теперь сравним с клодом.

Claude Sonnet 4.5

Выпущена 29 сентября 2025 года.
Компания позиционирует её как “лучшая модель для кодирования в мире”.
Очень высокие показатели в бенчмарках, например SWE-bench Verified ~77.2 % для кодирования.
Контекстное окно очень большое, предназначена для сложных задач, агентов, “использования компьютера”.

GLM-4.6

Обновлена примерно 30 сентября 2025 года.
Архитектура Mixture‐of‐Experts (~357 млрд параметров), контекст до 200 000 токенов.
Значительно более доступная модель с точки зрения лицензии / стоимости: например, открытые веса, MIT-лицензия.
В бенчмарках показывает конкурентный уровень, но чуть ниже “топ-уровня” Claude. Например — около ~68 % на SWE-bench (оценочно) и выигрыш ~48.6 % против Claude Sonnet 4 в мульти-тур задачах. Согласитесь, не плохо.

Сравнивая обе LLM.

Claude Sonnet 4.5: стабильно хороший вывод, особенно когда задача сложная, требует много этапов, отладки, архитектурной мысли. Бенчмарки не врут.
GLM-4.6: тоже очень достойный, почти на уровне, но всё же иногда “подводит” по сравнению с Claude в самых сложных сценариях. Но для простых задач все нормально. Примерно того же мнения и ребята на реддите.

Тестирую GLM 4.6 через сервис cto.new

Про Cto.new

Подготовка

Проведение теста

Планирование

Реализация

Проверка качества

Что понравилось

Что не идеально / ограничения

Еще недостатки

Для кого она всё-таки хороша

Итоги