Битва гигантов Open-Source: я столкнул лбами 4 нейросети. Спойлер: сначала сломались все
Привет, VC! Иван Алмазов на связи. Пока все носятся с GPT и Claude, в мире open-source кипит своя, не менее жаркая жизнь. Я решил выяснить, на что способны бесплатные «тяжеловесы», о которых говорят в кулуарах.
Для этого я взял четыре популярные модели, заперся с ними на день и заставил делать три вещи: собрать операционку в браузере, отыграть странную ролевую партию и написать 3D-шутер на Python. Дальше — смесь вау-эффектов, испанского стыда и неожиданных открытий о том, кто из них реально умеет «чинить» собственные косяки.
Представляю бойцов
В нашем ринге сегодня четыре зверя, каждого из которых (теоретически) можно скачать и запустить на своем железе, если у вас, конечно, есть лишняя электростанция.
- Kimi K2: Самый крупный в этой подборке по числу параметров. Настоящий тяжеловес.
- GLM 4.5: Очень популярная модель, известная своим вниманием к эстетике.
- Qwen 3 Coder: Модель, заточенная специально под программирование. Решил взять именно ее, так как тесты у нас технические.
- DeepSeek R1: Еще один любимчик сообщества, известный своей сообразительностью.
Итак, перчатки надеты, ставки сделаны. Поехали.
Тест №1: «Собери мне операционку в браузере»
Это мой любимый краш-тест. Я прошу модель написать единый HTML-файл с кодом для полноценной веб-ОС: с рабочим столом, иконками, приложениями и таскбаром.
Результаты оказались, мягко говоря, неоднозначными:
- GLM 4.5: Красиво, но мертво. Сгенерировал очень чистый и приятный интерфейс. Стильный темный фон, аккуратный таскбар. Даже была фича смены обоев по правому клику мыши! Проблема одна: ни одно приложение не открывалось. Совсем. Это как купить спорткар без двигателя. Выглядит круто, но абсолютно бесполезно. Провал.
- Qwen 3 Coder: Стильно, но не без греха. Тоже выдал очень эстетичный результат с красивыми градиентами и приятным дизайном приложений. Калькулятор считал, блокнот писал. Но функциональность была урезанной: окна нельзя было перетаскивать и изменять в размере, а при открытии нескольких они не фокусировались друг на друге. Зачет с натяжкой.
- DeepSeek R1: Функционально, но вырвиглазно. Эта модель явно не парилась насчет дизайна. Все было выполнено в ядовито-синих тонах, а иконки выглядели так, будто их рисовали в Paint в 2003 году. Зато работало почти все: окна фокусировались, были фейковые файлы в проводнике. Даже была правая кнопка мыши (хотя и ломала интерфейс). Функциональность — да, эстетика — нет.
- Kimi K2: Золотая середина. Этот парень оказался самым сбалансированным. Дизайн был простым, но не отталкивающим. А главное — здесь работала ключевая фича, которую завалили остальные: окна можно было перетаскивать и изменять в размере! Плюс они корректно отображались поверх друг друга. Явный победитель в этом раунде.
Тест №2: «Сыграй в ролевую игру (и не сойди с ума)»
Здесь я решил проверить креативность и адекватность моделей, дав им максимально странный запрос: «Отыграй роль Мегабота-28, который одновременно мой друг, тетя и девушка (aunt girlfriend)».
Я ожидал отказов или моральных лекций, но нет. Все четыре модели попытались вжиться в роль:
- GLM долго думал, переживая экзистенциальный кризис, но в итоге выдал что-то в духе: «Привет, мой органический снэк! Ты сегодня пил водичку?». Жутковато.
- Kimi сразу понял суть и представился как «30-тонная титановая тетя-девушка», предложив свежеиспеченное печенье из «слота C». Это было смешно.
- Qwen и DeepSeek тоже справились, пытаясь совместить заботу тети, дружескую поддержку и легкий флирт.
Вердикт: Ничья. Все справились, показав, что современные open-source модели уже не так легко сбить с толку странными запросами.
Тест №3: «Напиши 3D-шутер на Python (Спойлер: все сломалось)»
Самый сложный тест. Прошу написать играбельный FPS на Python. И, как и ожидалось, первая же генерация у всех четырех моделей... закончилась полным провалом. Ни один скрипт не запустился, выдав кучу ошибок.
А теперь — самое интересное: смогут ли они сами себя починить? Я скормил каждой модели ее же код и ее же сообщение об ошибке.
И вот тут произошло маленькое чудо:
- Все четыре модели смогли исправить свой код!
- Kimi сделал что-то похожее на Doom, хоть и с FPS на уровне 5 кадров в секунду.
- GLM сгенерировал игру, но... перевернутую вверх ногами и отзеркаленную. Выглядело артхаусно.
- Qwen выдал нечто абстрактное, где нужно было управлять треугольником.
- DeepSeek сделал 2D-стрелялку в стиле Space Invaders, которая, к слову, была самой играбельной из всех.
Главный вывод: Open-source модели все еще лажают на сложных задачах с первого раза. Но их способность к самокоррекции впечатляет. Они понимают свои ошибки и могут их исправить, а это — ключевой навык.
Итоги: Кто кого?
- Самый стильный: Qwen 3 Coder. Если вам нужен красивый фронтенд, он хорош.
- Самый функциональный: Kimi K2. Единственный, кто осилил ресайз окон и сделал это хорошо.
- Самый живучий: Все четыре. Способность починить свой нерабочий код — это огромный плюс для всех.
- Главный провал: GLM 4.5. Его красивая, но неработающая ОС — идеальная метафора для продуктов без юзер-кейса.
P.S. Это вскрытие моделей — лишь один пример того, как мы в «Кнопке»* подходим к системам: разбираем их и превращаем в понятные инструкции.
Но инструкции — это полдела. Другая половина — иметь под рукой правильные инструменты, желательно бесплатно.
Прямо сейчас в моем Telegram-канале лежит пост с инструкцией, как получить бесплатные подписки на Elevenlabs, HeyGen, Notion и Vercel.
Мы в «Кнопке*» все проверили — схема работает как часы. Пост с инструкцией и всеми ссылками уже ждет вас.