Битва гигантов Open-Source: я столкнул лбами 4 нейросети. Спойлер: сначала сломались все

Привет, VC! Иван Алмазов на связи. Пока все носятся с GPT и Claude, в мире open-source кипит своя, не менее жаркая жизнь. Я решил выяснить, на что способны бесплатные «тяжеловесы», о которых говорят в кулуарах.

Для этого я взял четыре популярные модели, заперся с ними на день и заставил делать три вещи: собрать операционку в браузере, отыграть странную ролевую партию и написать 3D-шутер на Python. Дальше — смесь вау-эффектов, испанского стыда и неожиданных открытий о том, кто из них реально умеет «чинить» собственные косяки.

Битва гигантов Open-Source: я столкнул лбами 4 нейросети. Спойлер: сначала сломались все

В нашем ринге сегодня четыре зверя, каждого из которых (теоретически) можно скачать и запустить на своем железе, если у вас, конечно, есть лишняя электростанция.

Kimi K2: Самый крупный в этой подборке по числу параметров. Настоящий тяжеловес.
GLM 4.5: Очень популярная модель, известная своим вниманием к эстетике.
Qwen 3 Coder: Модель, заточенная специально под программирование. Решил взять именно ее, так как тесты у нас технические.
DeepSeek R1: Еще один любимчик сообщества, известный своей сообразительностью.

Итак, перчатки надеты, ставки сделаны. Поехали.

Это мой любимый краш-тест. Я прошу модель написать единый HTML-файл с кодом для полноценной веб-ОС: с рабочим столом, иконками, приложениями и таскбаром.

Результаты оказались, мягко говоря, неоднозначными:

GLM 4.5: Красиво, но мертво. Сгенерировал очень чистый и приятный интерфейс. Стильный темный фон, аккуратный таскбар. Даже была фича смены обоев по правому клику мыши! Проблема одна: ни одно приложение не открывалось. Совсем. Это как купить спорткар без двигателя. Выглядит круто, но абсолютно бесполезно. Провал.
Qwen 3 Coder: Стильно, но не без греха. Тоже выдал очень эстетичный результат с красивыми градиентами и приятным дизайном приложений. Калькулятор считал, блокнот писал. Но функциональность была урезанной: окна нельзя было перетаскивать и изменять в размере, а при открытии нескольких они не фокусировались друг на друге. Зачет с натяжкой.
DeepSeek R1: Функционально, но вырвиглазно. Эта модель явно не парилась насчет дизайна. Все было выполнено в ядовито-синих тонах, а иконки выглядели так, будто их рисовали в Paint в 2003 году. Зато работало почти все: окна фокусировались, были фейковые файлы в проводнике. Даже была правая кнопка мыши (хотя и ломала интерфейс). Функциональность — да, эстетика — нет.
Kimi K2: Золотая середина. Этот парень оказался самым сбалансированным. Дизайн был простым, но не отталкивающим. А главное — здесь работала ключевая фича, которую завалили остальные: окна можно было перетаскивать и изменять в размере! Плюс они корректно отображались поверх друг друга. Явный победитель в этом раунде.

Здесь я решил проверить креативность и адекватность моделей, дав им максимально странный запрос: «Отыграй роль Мегабота-28, который одновременно мой друг, тетя и девушка (aunt girlfriend)».

Я ожидал отказов или моральных лекций, но нет. Все четыре модели попытались вжиться в роль:

GLM долго думал, переживая экзистенциальный кризис, но в итоге выдал что-то в духе: «Привет, мой органический снэк! Ты сегодня пил водичку?». Жутковато.
Kimi сразу понял суть и представился как «30-тонная титановая тетя-девушка», предложив свежеиспеченное печенье из «слота C». Это было смешно.
Qwen и DeepSeek тоже справились, пытаясь совместить заботу тети, дружескую поддержку и легкий флирт.

Вердикт: Ничья. Все справились, показав, что современные open-source модели уже не так легко сбить с толку странными запросами.

Самый сложный тест. Прошу написать играбельный FPS на Python. И, как и ожидалось, первая же генерация у всех четырех моделей... закончилась полным провалом. Ни один скрипт не запустился, выдав кучу ошибок.

А теперь — самое интересное: смогут ли они сами себя починить? Я скормил каждой модели ее же код и ее же сообщение об ошибке.

И вот тут произошло маленькое чудо:

Все четыре модели смогли исправить свой код!
Kimi сделал что-то похожее на Doom, хоть и с FPS на уровне 5 кадров в секунду.
GLM сгенерировал игру, но... перевернутую вверх ногами и отзеркаленную. Выглядело артхаусно.
Qwen выдал нечто абстрактное, где нужно было управлять треугольником.
DeepSeek сделал 2D-стрелялку в стиле Space Invaders, которая, к слову, была самой играбельной из всех.

Главный вывод: Open-source модели все еще лажают на сложных задачах с первого раза. Но их способность к самокоррекции впечатляет. Они понимают свои ошибки и могут их исправить, а это — ключевой навык.

Самый стильный: Qwen 3 Coder. Если вам нужен красивый фронтенд, он хорош.
Самый функциональный: Kimi K2. Единственный, кто осилил ресайз окон и сделал это хорошо.
Самый живучий: Все четыре. Способность починить свой нерабочий код — это огромный плюс для всех.
Главный провал: GLM 4.5. Его красивая, но неработающая ОС — идеальная метафора для продуктов без юзер-кейса.

P.S. Это вскрытие моделей — лишь один пример того, как мы в «Кнопке»* подходим к системам: разбираем их и превращаем в понятные инструкции.

Но инструкции — это полдела. Другая половина — иметь под рукой правильные инструменты, желательно бесплатно.

Прямо сейчас в моем Telegram-канале лежит пост с инструкцией, как получить бесплатные подписки на Elevenlabs, HeyGen, Notion и Vercel.

Мы в «Кнопке*» все проверили — схема работает как часы. Пост с инструкцией и всеми ссылками уже ждет вас.

t.me

Кнопка*

Битва гигантов Open-Source: я столкнул лбами 4 нейросети. Спойлер: сначала сломались все

Представляю бойцов

Тест №1: «Собери мне операционку в браузере»

Тест №2: «Сыграй в ролевую игру (и не сойди с ума)»

Тест №3: «Напиши 3D-шутер на Python (Спойлер: все сломалось)»

Итоги: Кто кого?