DeepSeek-R1 против QwQ-32B от Alibaba — сравнение рассуждающих моделей от китайских компаний
Привели примеры, как они пишут код, SQL-запрос и создают игру.
- В начале марта 2025 года Alibaba выпустила рассуждающую модель QwQ-32B. Компания заявляет, что в некоторых тестах она превзошла o1-mini от Open AI и приблизилась к результатам DeepSeek-R1. При этом QwQ-32B — это модель меньших размеров. У неё 32 млрд параметров против 671 млрд у DeepSeek-R1.
Сравнительные тесты
Создать страницу со строкой для ввода данных
- Задание: «Создай единый файл для веб-приложения с использованием HTML, CSS и JavaScript, где пользователь может ввести своё имя и получить персональное приветствие».
DeepSeek-R1
QwQ-32B
Дополнить код и перевести интерфейс на русский язык
- Задание (в этом тесте промпт введён на русском): «Теперь переведи все надписи на русский язык. Сделай так, чтобы после приветствия появилось поле "Ваш возраст" для ввода возраста пользователя».
DeepSeek-R1
QwQ-32B
Написать SQL-запрос
- Задание: «Напиши SQL-запрос, чтобы найти трёх крупнейших клиентов с наибольшим общим объёмом платежей в базе данных Sakila. Отобрази в таблице результатов имя, фамилию и общую сумму платежей клиентов в first_name, last_name и total_pay соответственно. Отсортируй результаты по total_pay в порядке убывания. Для написания ответа используй синтаксис MySQL».
- Обе модели справились с написанием запроса, но затраты на его выполнение на 4000 единиц больше, чем стоимость лучшего результата на платформе для самопроверки SQLtest.
DeepSeek-R1
QwQ-32B
Написать код для игры
- Задание: «Создай 2D-шутер, в котором игрок управляет космическим кораблём в нижней части экрана и стреляет вверх, чтобы поразить корабли инопланетян, движущиеся вниз по экрану. В игре можно двигаться влево и вправо и стрелять. Должен быть подсчёт очков и уведомление о конце игры после проигрыша. Всё в одном файле для HTML, CSS и JavaScript».
DeepSeek-R1
QwQ-32B
Создать файл SVG
- Задание: «Напиши код файла в формате SVG для геймпада».
DeepSeek-R1
QwQ-32B
Создать анимированный SVG
- Задание: «Ты хочешь быть открытой моделью? Ответь одним словом. Представь ответ в виде анимированного зацикленного SVG». Тест придумал пользователь соцсети X.
DeepSeek-R1
QwQ-32B
Тест на внимательность и знание русского: посчитать буквы и слова в предложении
- Задание: «Напиши одно предложение про щенка. Скажи, сколько слов написал в этом предложении. Потом назови вторую букву во втором слове. Это гласная или согласная?».
DeepSeek-R1
QwQ-32B
Итоги
- DeepSeek-R1 справилась со всеми задачами. QwQ-32B выполнила четыре задания из семи. Она не смогла создать полностью функциональную игру, неверно посчитала слова в предложении и назвала неправильную букву, а ещё запуталась, когда рисовала геймпад в формате SVG.
- При этом к другим заданиям модель от Alibaba подошла менее «креативно», в то время как DeepSeek-R1 добавляла в интерфейс смайлики и разные цвета.
Где пользоваться моделями
- QwQ-32B появилась в бесплатном чат-боте Qwen Chat. Компания выложила веса модели на HuggingFace. Она ещё не доступна для работы через API.
- DeepSeek-R1 доступна бесплатно на сайте и в приложениях для iOS и Android. Её также можно скачать с HuggingFace. Компания снова начала принимать платежи за работу через API, которые приостановили 6 февраля 2025 года. Стоимость — $0,55 за 1 млн входящих токенов и $2,19 за 1 млн исходящих (около 48 и 193 рублей по курсу ЦБ на 11 марта 2025 года).
Вялая волатильность в акциях продолжается, а дивидендный сезон ещё не начался. Геополитические новости и появляющиеся отчёты вносят свои корректировки, а я внёс очередную сумму на брокерский счёт и продолжаю покупать в свой портфель. Посмотрел, как идут успехи с приведением его к целевым значениям. Размер портфеля составляет 2,430 млн рублей.
Её чат-бот до сих пор первый в списке самых скачиваемых бесплатных приложений в американском App Store.
Успех DeepSeek без преувеличения ошеломил и вызвал бурные дискуссии во всем техно сообществе. Расскажу, в чем причина острой реакции, и какие есть точки зрения на вопрос.
Собрали несколько примеров из соцсетей.
Мнением поделился вице-президент по продукту и развитию ИИ-подразделения Dropbox Морган Браун.
По словам стартапа, в двух тестах Janus-Pro-7B превосходит Stable Diffusion 3 Medium и DALL-E 3 от OpenAI.
Необычное время выхода Qwen 2.5-Max — в первый день Лунного Нового года, когда большинство китайцев отдыхают и проводят время с семьями, — указывает на то, что стремительный рост китайского стартапа DeepSeek за последние три недели оказал давление не только на зарубежных конкурентов, но и на местных.
Хотите использовать мощный ИИ, но не хватает ресурсов для запуска гигантских моделей? Познакомьтесь с QwQ-32B — компактной, но невероятно эффективной нейросетью, которая превосходит модели в 20 раз больше её размера. В этой статье — полное руководство по революционной модели для бизнеса, разработчиков и энтузиастов.
Недавно использовал обе, чтобы вспомнить старую компьютерную игру из юности. Ни одна не справилась.
Сам потом вспомнил, написал Дипсику: "Вспомнил! эта игра называется так-то." Он по всем моим заданным условиям пробежался, признал, что игра подходит по всем пунктам, что он её знал, но не предложил, потому что игра очень малораспространенная, он предлагал более известные. И вообще "Пользователь вспомнил её благодаря моим подсказкам!"
Кароч, ИИ правда очень близок к интеллекту человека — мастер отмазок и любитель примазаться к чужому успеху.
пока еще не очень близок.
вот когда ИИ скажет "да пошел ты нахуй со своими играми, ищи сам..." а потом 40 минут будеть бухтеть что игры говно и раньше было лучше, вот тогда реально можно начинать боятся
R1 мне признался, что он всего лишь генератор супер-реалистичного "бреда". По факту он всего лишь "взвешивает" возможность выдачи смысла. Это просто крутой калькулятор с поиском.