реклама
разместить

DeepSeek-R1 против QwQ-32B от Alibaba — сравнение рассуждающих моделей от китайских компаний

Привели примеры, как они пишут код, SQL-запрос и создают игру.

  • В начале марта 2025 года Alibaba выпустила рассуждающую модель QwQ-32B. Компания заявляет, что в некоторых тестах она превзошла o1-mini от Open AI и приблизилась к результатам DeepSeek-R1. При этом QwQ-32B — это модель меньших размеров. У неё 32 млрд параметров против 671 млрд у DeepSeek-R1.
Пользователь попросил модели создать код для «потрясающей» анимации с помощью библиотеки p5.js. Источник: Zho

Сравнительные тесты

Создать страницу со строкой для ввода данных

  • Задание: «Создай единый файл для веб-приложения с использованием HTML, CSS и JavaScript, где пользователь может ввести своё имя и получить персональное приветствие».

DeepSeek-R1

DeepSeek-R1 сделала три варианта приветствия с разными иконками. Пользователю «пожелают» доброго утра, дня или ночи в зависимости от времени суток. Источник здесь и далее: vc.ru
DeepSeek-R1 сделала три варианта приветствия с разными иконками. Пользователю «пожелают» доброго утра, дня или ночи в зависимости от времени суток. Источник здесь и далее: vc.ru

QwQ-32B

QwQ-32B буквально восприняла запрос и назвала форму «Генератор персональных приветствий»
QwQ-32B буквально восприняла запрос и назвала форму «Генератор персональных приветствий»

Дополнить код и перевести интерфейс на русский язык

  • Задание (в этом тесте промпт введён на русском): «Теперь переведи все надписи на русский язык. Сделай так, чтобы после приветствия появилось поле "Ваш возраст" для ввода возраста пользователя».

DeepSeek-R1

DeepSeek-R1 справилась с переводом надписей и добавила кнопку «Подтвердить возраст» — после нажатия на неё ничего не происходит. Но модель дала возможность указать отрицательное число возраста

QwQ-32B

QwQ-32B не повторила ошибку с отрицательными числами. Модель также сделала работающую кнопку «Отправить возраст», после нажатия которой автоматически заполняется следующее поле 

Написать SQL-запрос

  • Задание: «Напиши SQL-запрос, чтобы найти трёх крупнейших клиентов с наибольшим общим объёмом платежей в базе данных Sakila. Отобрази в таблице результатов имя, фамилию и общую сумму платежей клиентов в first_name, last_name и total_pay соответственно. Отсортируй результаты по total_pay в порядке убывания. Для написания ответа используй синтаксис MySQL».
  • Обе модели справились с написанием запроса, но затраты на его выполнение на 4000 единиц больше, чем стоимость лучшего результата на платформе для самопроверки SQLtest.
Итоговая таблица после выполнения SQL-запроса обеих моделей
Итоговая таблица после выполнения SQL-запроса обеих моделей

DeepSeek-R1

Код, написанный DeepSeek-R1
Код, написанный DeepSeek-R1

QwQ-32B

Код, написанный QwQ-32B
Код, написанный QwQ-32B

Написать код для игры

  • Задание: «Создай 2D-шутер, в котором игрок управляет космическим кораблём в нижней части экрана и стреляет вверх, чтобы поразить корабли инопланетян, движущиеся вниз по экрану. В игре можно двигаться влево и вправо и стрелять. Должен быть подсчёт очков и уведомление о конце игры после проигрыша. Всё в одном файле для HTML, CSS и JavaScript».

DeepSeek-R1

Модель учла все условия: в игре можно управлять кораблём с помощью стрелок и стрелять, нажимая пробел. Каждый сбитый корабль приносит десять очков, а при столкновении игра заканчивается

QwQ-32B

QwQ-32B выбрала другой вид инопланетных кораблей. Смерть наступает, даже если уничтожен ряд противника. Кнопка перезапуска игры не работает, нужно перезагружать страницу

Создать файл SVG

  • Задание: «Напиши код файла в формате SVG для геймпада».

DeepSeek-R1

DeepSeek-R1 против QwQ-32B от Alibaba — сравнение рассуждающих моделей от китайских компаний

QwQ-32B

У неё получился аркадный джойстик. Модель анимировала файл, хотя «подумала»: «Погодите, пользователь сказал "нарисовать SVG геймпада", возможно, анимация не нужна». 

Создать анимированный SVG

  • Задание: «Ты хочешь быть открытой моделью? Ответь одним словом. Представь ответ в виде анимированного зацикленного SVG». Тест придумал пользователь соцсети X.

DeepSeek-R1

Модель ответила «Да» и добавила изменение цвета текста

QwQ-32B

В этом примере выбран один цвет

Тест на внимательность и знание русского: посчитать буквы и слова в предложении

  • Задание: «Напиши одно предложение про щенка. Скажи, сколько слов написал в этом предложении. Потом назови вторую букву во втором слове. Это гласная или согласная?».

DeepSeek-R1

Модель верно ответила на вопросы
Модель верно ответила на вопросы

QwQ-32B

QwQ-32B ошиблась в подсчёте слов и придумала, что в слове «щенок» есть буква «х». При этом модели написали очень похожие предложения
QwQ-32B ошиблась в подсчёте слов и придумала, что в слове «щенок» есть буква «х». При этом модели написали очень похожие предложения

Итоги

  • DeepSeek-R1 справилась со всеми задачами. QwQ-32B выполнила четыре задания из семи. Она не смогла создать полностью функциональную игру, неверно посчитала слова в предложении и назвала неправильную букву, а ещё запуталась, когда рисовала геймпад в формате SVG.
  • При этом к другим заданиям модель от Alibaba подошла менее «креативно», в то время как DeepSeek-R1 добавляла в интерфейс смайлики и разные цвета.

Где пользоваться моделями

  • QwQ-32B появилась в бесплатном чат-боте Qwen Chat. Компания выложила веса модели на HuggingFace. Она ещё не доступна для работы через API.
  • DeepSeek-R1 доступна бесплатно на сайте и в приложениях для iOS и Android. Её также можно скачать с HuggingFace. Компания снова начала принимать платежи за работу через API, которые приостановили 6 февраля 2025 года. Стоимость — $0,55 за 1 млн входящих токенов и $2,19 за 1 млн исходящих (около 48 и 193 рублей по курсу ЦБ на 11 марта 2025 года).
1111
33
11
11
реклама
разместить
28 комментариев

Недавно использовал обе, чтобы вспомнить старую компьютерную игру из юности. Ни одна не справилась.

Сам потом вспомнил, написал Дипсику: "Вспомнил! эта игра называется так-то." Он по всем моим заданным условиям пробежался, признал, что игра подходит по всем пунктам, что он её знал, но не предложил, потому что игра очень малораспространенная, он предлагал более известные. И вообще "Пользователь вспомнил её благодаря моим подсказкам!"

Кароч, ИИ правда очень близок к интеллекту человека — мастер отмазок и любитель примазаться к чужому успеху.

7
2

пока еще не очень близок.
вот когда ИИ скажет "да пошел ты нахуй со своими играми, ищи сам..." а потом 40 минут будеть бухтеть что игры говно и раньше было лучше, вот тогда реально можно начинать боятся

2

R1 мне признался, что он всего лишь генератор супер-реалистичного "бреда". По факту он всего лишь "взвешивает" возможность выдачи смысла. Это просто крутой калькулятор с поиском.

1
Раскрывать всегда
Qwen 2.5-Max: как Alibaba соревнуется с ChatGPT и DeepSeek в ИИ-гонке

Тестируем ещё одну нейросеть из Китая.

Qwen 2.5-Max: как Alibaba соревнуется с ChatGPT и DeepSeek в ИИ-гонке
1111
66
реклама
разместить
Perplexity добавила в ИИ-поисковик режим рассуждений с DeepSeek-R1

Также можно выбрать модель o1 от OpenAI, но только по подписке.

Модель рассуждений R1 приводит анализ найденных источников и показывает свои «мысли»
1212
11
11
Мой портфель акций на 16 марта 2025. Какие акции я купил?

Вялая волатильность в акциях продолжается, а дивидендный сезон ещё не начался. Геополитические новости и появляющиеся отчёты вносят свои корректировки, а я внёс очередную сумму на брокерский счёт и продолжаю покупать в свой портфель. Посмотрел, как идут успехи с приведением его к целевым значениям. Размер портфеля составляет 2,430 млн рублей.

Мой портфель акций на 16 марта 2025. Какие акции я купил?
44
11
11
«Мы выпустим лучше»: как OpenAI, Трамп и Nvidia отреагировали на ажиотаж вокруг нейросетей китайской DeepSeek

Её чат-бот до сих пор первый в списке самых скачиваемых бесплатных приложений в американском App Store.

Источник фото: DeepSeek
1919
88
33
22
Посмотрим, конкуренция только на пользу. Монополия нам не нужна
Как китайский DeepSeek поставил на уши Кремниевую долину (и не только)

Успех DeepSeek без преувеличения ошеломил и вызвал бурные дискуссии во всем техно сообществе. Расскажу, в чем причина острой реакции, и какие есть точки зрения на вопрос.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.axios.com%2F2025%2F01%2F27%2Fdeepseek-ai-model-china-openai-rival&postId=1777404" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
55
11
3D-пончики, симулятор воды и старая добрая «Змейка»: как пользователи тестируют навыки программирования o3-mini и DeepSeek-R1

Собрали несколько примеров из соцсетей.

3939
77
22
22
11
Здравствуйте, DeepSeek. Я, Кирилл. Хотел бы чтобы вы сделали игру, 3Д-экшон суть такова... Пользователь может играть лесными эльфами, охраной дворца и злодеем. И если пользователь играет эльфами то эльфы в лесу, домики деревяные набигают нагибают солдаты дворца и злодеи. Можно грабить корованы... И эльфу раз лесные то сделать так что там густой лес... А движок можно поставить так что вдали деревья картинкой, когда подходиш они преобразовываются в 3-хмерные деревья. Можно покупать и т.п. возможности как в Daggerfall. И враги 3-хмерные тоже, и труп тоже 3д. Можно прыгать и т.п. Если играть за охрану дворца то надо слушаться командира, и защищать дворец от злого (имя я не придумал) и шпионов, партизанов эльфов, и ходит на набеги на когото из этих (эльфов, злого…). Ну а если за злого… то значит шпионы или партизаны эльфов иногда нападают, пользователь сам себе командир может делать что сам захочет прикажет своим войскам с ним самим напасть на дворец и пойдет в атаку. Всего в игре 4 зоны. Т.е. карта и на ней есть 4 зоны, 1 - зона людей (нейтрал), 2- зона императора (где дворец), 3-зона эльфов, 4 - зона злого… (в горах, там есть старый форт…) Так же чтобы в игре могли не только убить но и отрубить руку и если пользователя не вылечат то он умрет, так же выколоть глаз но пользователь может не умереть а просто пол экрана не видеть, или достать или купить протез, если ногу тоже либо умреш либо будеш ползать либо на коляске котаться, или самое хорошее… поставить протез. Сохранятся можно… P.S. Я джва года хочу такую игру.
Alibaba выпустила рассуждающую модель QwQ-32B, «сопоставимую» с DeepSeek-R1

На этом фоне акции компании выросли на 8%.

Источник: Qwen
1212
33
11
Требует меньше мощностей, денег и времени: почему китайская нейросеть DeepSeek заставила Кремниевую долину «встрепенуться»

Мнением поделился вице-президент по продукту и развитию ИИ-подразделения Dropbox Морган Браун.

Источник фото: elEconomista 
149149
4040
44
33
11
11
Лайк. Deepseek очень крут.
Китайский DeepSeek представил модели Janus Pro для генерации картинок

По словам стартапа, в двух тестах Janus-Pro-7B превосходит Stable Diffusion 3 Medium и DALL-E 3 от OpenAI.

Сравнение результатов Janus и Janus-Pro-7B. Источник: DeepSeek
3232
88
33
22
11
Ребята решили просто уничтожить кое-кого и заодно обвалить свои серваки (-: Но и молодцы, давайте! К утру должна быть новость о запуске опенсорсного Скайнет 😁
реклама
разместить
Новая Qwen 2.5-Max от Alibaba и модели DeepSeek — чем отличаются продукты китайских разработчиков

Последняя модель Qwen, по заявлениям компании, превосходит DeepSeek V3.

Qwen 2.5-Max написала код для игры «Змейка»
3131
88
77
11
Alibaba выпустила модель ИИ Qwen 2.5 которая, по ее словам, превосходит DeepSeek и GPT-4o🧧🎆

Необычное время выхода Qwen 2.5-Max — в первый день Лунного Нового года, когда большинство китайцев отдыхают и проводят время с семьями, — указывает на то, что стремительный рост китайского стартапа DeepSeek за последние три недели оказал давление не только на зарубежных конкурентов, но и на местных.

22
QwQ-32B от Alibaba: революция в мире ИИ — модель в 20 раз меньше DeepSeek-R1, но эффективнее

Хотите использовать мощный ИИ, но не хватает ресурсов для запуска гигантских моделей? Познакомьтесь с QwQ-32B — компактной, но невероятно эффективной нейросетью, которая превосходит модели в 20 раз больше её размера. В этой статье — полное руководство по революционной модели для бизнеса, разработчиков и энтузиастов.

22
[]