GLM 5.0 - тестируем в кодинге и разочаровываемся (и очаровываемся)

Сегодня вышла новая (как оказалась, старая, все те же дрова) китайская модель - GLM 5.0. И я очень много ее тестировал последнее время, и сегодня. Ранее она была доступна на OpenRouter. Она очень круто делает сайты, это просто нереальное качество. Посмотрите примеры в телеграме. А вот в кодинге она себя никак не показала.

GLM 5.0 - тестируем в кодинге и разочаровываемся (и очаровываемся)

🎨 1. Фронтенд и Дизайн: Неожиданный Клон Опуса?

Начну с того, чем модель меня реально удивила. Если вы занимаетесь веб-дизайном или версткой — GLM 5.0 вас порадует. Я скармливал ей сложные промпты на создание лендингов, и результат... впечатляет.

Модель выдает очень чистый, эстетичный код. По качеству визуала она сейчас на уровне Opus, это не шутка. GPT-4o (обычная) в подметки не годится — GLM делает более "вкусные" тени, лучше понимает современные тренды в UI. ✅ Пример: Я просил сделать лендинг SaaS-продукта. Результат здесь: [ссылка]. Смотрите сами — это уровень премиум дизайна. 👌

Но есть огромное НО. Как только вы просите её написать сложную логику бэкенда или разобраться в запутанном спагетти-коде... всё, приехали. 🚐

💻 2. Кодинг и Логика: Тесты провалены?

Перейдем к "мясу". Я скармливал ей задачи, на которых обычно валится GPT-4o, и с которыми справляется Opus или DeepSeek. Результат? Посредственно. 😐

  • Задача 1: Рефакторинг класса с сложной зависимостью.Результат: GLM начала галлюцинировать, придумала несуществующие методы.
  • Задача 2: Написание простой змейки на JS.Результат: Код рабочий, но архитектура "в лоб". Никакой оптимизации.

Мне кажется, или я это уже видел? Ага, это же старая GLM 4.7! 🤡 Они просто увеличили контекстное окно в 2 раза. Теперь она "помнит" больше чата, но не стала умнее. Это как дать ученику толстую тетрадь, но не дать учебник — писать есть где, а знаний не прибавилось. 📉

🌐 3. Что говорят люди? (Слив с Reddit, Linux.do и Twitter)

Я не стал ограничиваться своим мнением и залез в самые горячие треды. Картинка вырисовывается грустная.

🇺🇸 С Reddit (r/LocalLLaMA и r/ChatGPT): Народ жестко критикует отсутствие прогресса в логике.

User u/CodeJunkie99: "Just tested GLM 5.0. It feels like they only patched the context length. It still fails on simple logical riddles that Claude solves in seconds. Typical marketing wrapper." 🇺🇸 (Перевод: "Только что протестировал. Ощущение, что они просто пропатчили длину контекста. Она все еще валится на простых логических загадках... Типичный маркетинговый фантик.")

Плюс, западные юзеры жалуются на цензуру. Модель стала очень "нервной". Если ей что-то не нравится в этическом плане, она уходит в отказ, что для кодинга — смерть. 💀

🇨🇳 С китайского форума: Там вообще штормит. Местные разработчики чувствуют себя обманутыми.

Пользователь @DeepSpace: "這就是 GLM 4.7 Pro Max Ultra... 沒有任何區別。只是換了個版本號。IPO之後公司就飄了,不想好好做模型了。" 😤 (Перевод: "Это просто GLM 4.7 Pro Max Ultra... Никакой разницы. Просто поменяли номер версии. После IPO компания расслабилась и не хочет делать нормальные модели.")

Еще один резонансный коммент про "думающую" часть:

Пользователь @NekoTech: "思維鏈?不存在的。它只是假裝在思考,實際上還是在瞎猜。浪費了我的時間。" 🤡 (Перевод: "Цепочка мыслей? Не существует. Она просто делает вид, что думает, а на самом деле гадает. Потратила мое время.")

🚧 4. Конкретные примеры факапов (Мой опыт)

Я решил проверить её на "агентность" — способность планировать и выполнять шаги. Тест: "Напиши простую игру Марио на HTML5". GLM начала бодро, написала HTML структуру... и зависла. Контекст забился, она начала повторять одни и те же строки кода по кругу. 🔄 DeepSeek V3 (который старее, якобы) справился с этой задачей в 2 раза быстрее и без циклов.

А еще я тестил Kimi k2.5 и MiniMax параллельно. И знаете что? Kimi, хоть и сырая, но показала настоящий Swarm Mode (работу агентов в команде) 👯‍♂. А GLM 5.0 — это одинокий фрилансер, который забыл, что хотел сказать 5 минут назад.

🏁 Итог: Ставим диагноз

GLM 5.0 — это самая противоречивая модель начала года.

✅ Брать если:

  • Вам нужен бесплатный (или дешевый) аналог Opus для генерации визуала сайтов.
  • Вам нужен огромный контекст для чтения документации (но не анализа!).

❌ НЕ брать если:

  • Вам нужен помощник для сложной архитектуры ПО.
  • Вы ждете прорыва в логике и "мышлении".
  • Вас бесит цензура и "вода" в ответах.

Ребята из Zhipu (создатели GLM), похоже, решили нас обмануть. Наклеили новую этикетку на старый продукт и продали как "новое поколение". Обман года? Похоже на то. 🤥

Думаю, теперь все надежды на DeepSeek V4, который вроде как обещают к 17 февраля. Надеюсь, там будет настоящий интеллект, а не просто +1 к длине чата. 🤞

А вы что думаете? Кто уже тестил GLM 5.0? Это треш или огонь? Пишите в комменты, поспорим! 👇💬

1
Начать дискуссию