Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

«Скормили» им несколько заданий на вычисления, работу с таблицей и проверку кода.

Что за модели и где их можно протестировать.
Задачи на вычисления.
Экономическая задача с таблицей.
Задачи на логику.
Поиск ошибок в коде.
Итоги.

Как o1 и o3 от OpenAI, модели со способностью рассуждать Gemini 2.0 Flash Thinking, DeepSeek 2.5 и Qwen QwQ предварительно размышляют, как будут решать задачу. Обдумывание занимает больше времени, но зато даёт лучший результат. Все три, в отличие от моделей OpenAI, бесплатные.

Google представила модель 19 декабря 2024 года. Она поддерживает русский язык, доступна в AI Studio от Google, но не открывается с российских IP-адресов.

Китайская компания DeepSeek выпустила модель 10 декабря 2024 года. Поработать с ней можно на сайте, нажав DeepThink под полем для ввода запроса. Русский понимает, но по умолчанию отвечает на английском. Можно попросить перевести ответ.

Alibaba выпустила модель с возможностью рассуждений QwQ-32B-Preview 27 ноября 2024 года. Ответить на русском может, но иногда добавляет в ответ китайские иероглифы. Доступна на Hugging Face. Ещё одна аналогичная нейросеть компании — QvQ-72B для анализа графиков и схем.

Задача 1.
Ускорение прямолинейно движущейся материальной точки возрастает по закону а = kt (k - постоянная) и через промежуток времени t1= 8 с достигает значения а1 = 6 м/с2. Определите для момента времени t2 = 5 с : 1) скорость v2 точки; 2) пройденный точкой путь s2.
Правильный ответ: v2 = 9,38 м/с2; s2 = 15,6 м.

Gemini 2.0 Flash Thinking: 9,375 м/с и 15,625 м (верно).

В своём ответе модель выделяет жирным ключевые понятия, а также расписывает пункты, отражающие этапы решения.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: v2 = 9,375 м/с, s2 = 15,625 м (верно).

В итоговом решении модель не рассказывает, как пришла к выводам, но свои «мысли» на английском расписывает подробнее Gemini. Чтобы прочитать их на русском, можно попросить перевод.

Ответ: «Сначала нужно понять, о чём спрашивают. Ускорение задаётся как функция времени, a = kt. Таким образом, ускорение не является постоянным, оно линейно увеличивается со временем. Это означает, что функции скорости и положения будут сложнее».

Qwen QwQ-32B-Preview: v2= 9,375 м/с, s2= 15,625 м (верно).

Модель начала отвечать на русском, но потом перешла на английский.

Задача 2.
Шарик массой 16 г, движущийся горизонтально, столкнулся с шаром массой 0,8 кг, висящим на прямом недеформируемом и невесомом стержне длиной 1,7 м. Считая удар упругим, определи скорость шарика массой 16 г, если угол отклонения стержня после удара равен 20°.
Правильный ответ: 36,2 м/c.

Gemini 2.0 Flash Thinking: 36,1335 м/с (верно).

DeepSeek 2.5: 36,11 м/с (верно).

Qwen QwQ-32B-Preview: 10 м/с (неверно).

Модель решала задачу дольше всех, рассмотрела несколько способов, но выдала неверный ответ.

Определи срок окупаемости проекта, если известно, что для организации предприятия планируется вложить собственные средства в размере 600 тысяч рублей и взять банковский кредит в размере 500 тысяч рублей. Проектируемые дисконтированные результаты деятельности организованного предприятия представлены в таблице.
Правильный ответ: первое полугодие третьего года работы предприятия.

Источник: Экономика: практикум. Дёмина, Ефанов, Зырянова

Gemini 2.0 Flash Thinking: два года и 24 дня с начала третьего года (верно).

DeepSeek 2.5: три года и два месяца (неверно).

Qwen QvQ-72B: примерно два года и один месяц (верно).

Задача 1.

Определи вид дилеммы в отрывке, напиши его формулу: Несколько лет назад китобойцы одного корабля, охотившись на Белого Кита, потерпели крушение. Вступив в бой с Китом, все члены экипажа погибли, за исключением капитана. Капитан собирает новую команду китобойцев. Измученные долгим плаванием, оставшись без продуктов, китобойцы, наконец, встречают Белого кита, который заманивает их во льды. Перед капитаном стоит дилемма: Если мы будем преследовать Кита и далее (а), то мы, обессилев, можем погибнуть во льдах (b). А если мы повернем назад (с), то Белый Кит будет нападать на другие корабли (d).

Правильный ответ:

Источник: Сборник задач по логике. Уткевич

Gemini 2.0 Flash Thinking: (a → b) ∧ (c → d) ∧ (a ∨ c) / (b ∨ d).

Модель правильно вывела формулу, но ошиблась в виде дилеммы, назвав её «простой конструктивной» (неверно).

DeepSeek 2.5: (a→b)∧(c→d)∧(a∨c)→(b∨d).

Формула верная, но дилемма названа просто «безвыходная ситуация» (неверно).

В этом случае DeepSeek не смогла перевести ответ на русский язык

Qwen QwQ-32B-Preview: [запуталась].

Сначала модель ответила на китайском.

После просьбы перевести сказанное на русский, выдала ответ на английском, не смогла составить формулу и назвать вид дилеммы.

Ответ: «Моральная дилемма: выбор между риском для жизни своей команды и тем, чтобы позволить киту атаковать другие корабли».

Задача 2.

По обвинению в ограблении перед судом предстали А, В и С. Установлено следующее: 1) если А не виновен или B виновен, то С виновен; 2) если А не виновен, то С не виновен. Кто виновен?
Правильный ответ: А виновен, С виновен, B невиновен.

Gemini 2.0 Flash Thinking: виновны A и C, а B — невиновен (верно).

DeepSeek 2.5: A и C виновны. Вина B не может быть определена на основе данной информации (неверно).

Qwen QwQ-32B-Preview: А виновен (неверно).

Модель не смогла записать все рассуждения на русском

Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fpvs-studio.ru%2Fru%2Fblog%2Fposts%2Fcsharp%2F0926%2F&postId=1723849" rel="nofollow noreferrer noopener" target="_blank">PVS-Studio</a>

Правильный ответ: в этом коде два if с одинаковыми условиями.

Gemini 2.0 Flash Thinking: «Условие if используется дважды: один раз для добавления PUT-ссылок ("update" и "move") и ещё раз для добавления DELETE-ссылки ("delete")» — верно.

Модель прислала переписанный код.

DeepSeek 2.5: «Оба if statement проверяют resources. CanUpdateAsset, что является некорректным для добавления ссылки на удаление» — верно.

Модель не исправила код.

Qwen QwQ-32B-Preview: «Основная ошибка в коде — повторяющееся условие в двух блоках if. Вероятно, второе условие должно проверять другое разрешение, например, CanDeleteAsset» — верно.

Модель написала исправленный вариант.

Gemini 2.0 Flash Thinking решила пять задач из шести. В одном из заданий на логику смогла составить формулу, но не определила вид дилеммы. Лучше других справилась с переводом ответов на русский.
DeepSeek 2.5 решила три задачи из шести. Ошиблась в заданиях на логику и анализ таблицы. Не написала верный код в тесте на программирование.
Qwen QwQ-32B-Preview решила три задачи из шести. Ошиблась в заданиях на логику и в задаче по физике. Но зато написала исправленный код.

Одной из первых модель с функцией «рассуждений» — o1 — представила OpenAI 12 сентября 2024 года. Она доступна подписчикам Plus за $20 в месяц с ограничениями по количеству запросов, а также плана Pro за $200 без лимитов. Есть продвинутая версия o1-pro, ей можно пользоваться только по подписке Pro.
20 декабря 2024 года OpenAI анонсировала модели o3 и o3-mini. Пользователи смогут «настроить» время на рассуждение — чем больше времени дать, тем лучше модель справится с запросом. Пока они доступны только тестировщикам.

#google #openai #новости

45 комментариев

Сергей Иванов

вчера

какая разница, я вот вчера взял простой ребус из комментов VC и ни одна нейронка его не решила

Ответить

Полина Лааксо

каким нейронкам дали?

Артур Маслов

Этот ребус читается как "С Новым Годом!"
Вот как это решается:
Сова: "С"
Число 7 и хлеб: "новый" (7 на английском звучит как "seven", и если убрать "s", получится "oven", что звучит как "овен" на русском, что ассоциируется с хлебом)
Лиса с заменой "А" на "b": "годом" (лиса = "fox", заменяем "А" на "b", и получаем "годом")
Таким образом, получается "С Новым Годом!"

кек