Тестирую GLM 4.6 через сервис cto.new
Недавно я решил проверить, как GLM-4.6 справляется с задачами разработки, и выбрал для этого платформу cto.new — агент-кодёр, который сам планирует, пишет код, делает пулл-реквесты. Цель: посмотреть, насколько реально можно ускорить работу и какова будет “качество” с такой связкой. GLM-4.6 заявлена как модель с расширенным контекстным окном (~200 000 токенов), улучшенной кодировкой, агентными возможностями.
Про Cto.new
Первоначальная идея была протестировать китайца с американцем - клодом соннет 4.5, поэтому для этих целей выбрал платформу cto.new (для тех кто не знает, это сервис где бесплатно есть топовые модельки, но он закрыт пока, запуск ожидается к Новому Году. Пока работает только через инвайты, за инвайт спасибо флику, он раздает инвайты в чате телеграма).
Подготовка
- Зарегистрировался в cto.new, подключил тестовый репозиторий (проект фронтенда + бэкенд).
- Проверил, что в cto.new можно выбрать/указать модель; в некоторых обсуждениях видно, что “glm_4_6” появляется как опция.
- Выбрал задачу: «добавить эндпоинт /api/status, возвращающий JSON с версией сервиса и uptime, покрыть тестом».
- В настройках Task Runner указал: среда Node.js + Typescript + тесты на Jest.
- Включил GLM-4.6 как бэкенд модели (через API или интеграцию) и задал параметры: умеренная температура, max_tokens около 500-1000, context включал репозиторий + задачу.
Проведение теста
Планирование
Модель (через агент cto.new) сначала предложила план:
- проанализировать существующий код сервиса
- определить место добавления эндпоинта
- написать контроллер, маршрут, тест, обновить документацию
- сделать PR, получить ревью (автоматически или вручную) В плане — 4 шага. Это показало, что GLM-4.6 “понимает” задачу не просто как генерацию функции, но как мини-workflow.
Реализация
- Код получился читаемым: Typescript, Express.js, добавлен endpoint, начался тест.
- Тест-файл присутствовал, это однозначно лайк)
- Стиль кода: аккуратный, но были моменты: импорт модулей не всегда в том стиле, как у моего проекта — пришлось вручную поправить.
- Время: с момента постановки задачи до PR прошло меньше чем ожидалось (~20 мин вместо привычных ~40-50 мин).
Проверка качества
- Пройдены тесты, всё успешно.
- Код рецензирован. В ветке были комментарии: “хорошо, только переименуй переменную uptimeMs в uptimeMilliseconds для единства”.
- После правки — обязательно мёрж (это обновление скрипта в гитхабе).
- Удивило: агент предложил в описании PR добавить “Added GET /api/status for service version and uptime” + менял «changelog». Такие детали часто делают вручную.
Что понравилось
- Изменения: GLM-4.6 заявлена как модель с превосходной контекстной способностью, агентным поведением и хорошей кодировкой.
- Экономия времени. Вместо того, чтобы вручную писать и тестировать, многое сделано автоматически.
- Хорошее интегрирование: cto.new смог использовать “модель-агент” + репозиторий + среду запуска, что показало мощь такого стека.
- Потенциал: если внедрить подобную связку в команду, можно снять много рутинных задач.
Что не идеально / ограничения
- Нужно было вручную править стиль кода (имена, форматирование) — модель не всегда знает ваши “нормы”.
- Хотя GLM-4.6 хороша, иногда код выходил “более общий”, чем хотелось — например, логирование не настроено под мой проект, пришлось добавить.
- Время: модель работала быстрее, но “включение” агента, проверка среды, сборка — всё равно требует человека.
- Стоимость/ресурсы: GLM-4.6 — мощная модель, и её использование (если платно) может быть дороже.
- Вопрос безопасности: подключение репозитория + разрешения агенту — требует доверия.
- Ну и в довесок, часть кода правил клодом. Да, может быть это немного нечестно, но я вижу в этом более правильное использование LLM-ки.
Еще недостатки
GLM 4.6 хвалится огромным контекстом, но когда подключал проектам в 150 файлов, то поведени было непредсказуемым. Иногда модель «теряет» связь между модулями:
- Путает пути импортов.
- Не замечает, что функция уже реализована.
- Генерирует повторяющиеся классы или лишние обёртки.
Такое ощущение, что контекст-то она “читает”, но не всегда системно осмысливает. В больших проектах это превращается в: “красиво написал, но не туда вставил”.
GLM 4.6 пишет очень аккуратный, архитектурно-чистый код, но иногда чересчур “академичный”. Типичный пример:
“Добавь логирование в middleware.” Она создаёт целый модуль логгера с конфигурацией, интерфейсом, фабрикой и DI-внедрением — хотя нужно было просто console.log().
То есть модель умеет “думать как архитектор”, но не всегда как практичный инженер.
Связка cto.new + GLM-4.6 — это реально интересный способ программировать, а не просто автодополнение кода. При правильной настройке вы получите помощника, который не просто “пишет функцию”, а “берёт задачу, планирует, реализует, тестирует, делает PR”.
Если бы давал оценку — я бы поставил эту комбинацию как «4 из 5»: сильный инструмент, но ещё пока требует иногда отладки — отчистки кода, настройки проекта, контроля.
Как думаете, в чем основная беда GLM 4.6?
Мое личное мнение - что она обучалась на датасетах до 2025 года, т.е. по сути два года уже прошло, и пора бы обновиться. Как считаете?
И типичный загон -ногда GLM 4.6 делает “умное лицо” и не признаёт, что чего-то не знает. Она может сгенерировать код с несуществующей библиотекой или методом, будто уверена, что так и должно быть. В клоде такого нет.
Типичная ситуация:
“fetchDataAsyncSafe()” — звучит логично, но такой функции нет ни в JS, ни в вашем коде.
В отличие от GPT-4 / 5, которая чаще ставит комментарий “⚠ псевдокод, проверьте зависимости”, GLM 4.6 этого почти не делает.
Для кого она всё-таки хороша
- Я думаю, для прототипирования — идеально. Пишет красиво, быстро, можно увидеть концепт.
- Для обучения и pet-проектов — вдохновляет, помогает разобраться в архитектуре.
- Для производственных систем — пока рано пускать её без ревью. Лучше использовать как “second pair of hands”, а не как “главного инженера”. Надеюсь, китайцы удивят нас новой моделью GLM 5.0 в скором будущем.
Теперь сравним с клодом.
Claude Sonnet 4.5
- Выпущена 29 сентября 2025 года.
- Компания позиционирует её как “лучшая модель для кодирования в мире”.
- Очень высокие показатели в бенчмарках, например SWE-bench Verified ~77.2 % для кодирования.
- Контекстное окно очень большое, предназначена для сложных задач, агентов, “использования компьютера”.
GLM-4.6
- Обновлена примерно 30 сентября 2025 года.
- Архитектура Mixture‐of‐Experts (~357 млрд параметров), контекст до 200 000 токенов.
- Значительно более доступная модель с точки зрения лицензии / стоимости: например, открытые веса, MIT-лицензия.
- В бенчмарках показывает конкурентный уровень, но чуть ниже “топ-уровня” Claude. Например — около ~68 % на SWE-bench (оценочно) и выигрыш ~48.6 % против Claude Sonnet 4 в мульти-тур задачах. Согласитесь, не плохо.
Итоги
Сравнивая обе LLM.
- Claude Sonnet 4.5: стабильно хороший вывод, особенно когда задача сложная, требует много этапов, отладки, архитектурной мысли. Бенчмарки не врут.
- GLM-4.6: тоже очень достойный, почти на уровне, но всё же иногда “подводит” по сравнению с Claude в самых сложных сценариях. Но для простых задач все нормально. Примерно того же мнения и ребята на реддите.