Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

«Скормили» им несколько заданий на вычисления, работу с таблицей и проверку кода.

Содержание

Про модели и доступы

Как o1 и o3 от OpenAI, модели со способностью рассуждать Gemini 2.0 Flash Thinking, DeepSeek 2.5 и Qwen QwQ предварительно размышляют, как будут решать задачу. Обдумывание занимает больше времени, но зато даёт лучший результат. Все три, в отличие от моделей OpenAI, бесплатные.

Gemini 2.0 Flash Thinking

Google представила модель 19 декабря 2024 года. Она поддерживает русский язык, доступна в AI Studio от Google, но не открывается с российских IP-адресов.

DeepSeek 2.5

Китайская компания DeepSeek выпустила модель 10 декабря 2024 года. Поработать с ней можно на сайте, нажав DeepThink под полем для ввода запроса. Русский понимает, но по умолчанию отвечает на английском. Можно попросить перевести ответ.

Qwen QwQ-32B-Preview

Alibaba выпустила модель с возможностью рассуждений QwQ-32B-Preview 27 ноября 2024 года. Ответить на русском может, но иногда добавляет в ответ китайские иероглифы. Доступна на Hugging Face. Ещё одна аналогичная нейросеть компании — QvQ-72B для анализа графиков и схем.

Задачи на вычисления

Задача 1.
Ускорение прямолинейно движущейся материальной точки возрастает по закону а = kt (k - постоянная) и через промежуток времени t1= 8 с достигает значения а1 = 6 м/с2. Определите для момента времени t2 = 5 с : 1) скорость v2 точки; 2) пройденный точкой путь s2.
Правильный ответ: v2 = 9,38 м/с2; s2 = 15,6 м.

Gemini 2.0 Flash Thinking: 9,375 м/с и 15,625 м (верно).

В своём ответе модель выделяет жирным ключевые понятия, а также расписывает пункты, отражающие этапы решения.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: v2 = 9,375 м/с, s2 = 15,625 м (верно).

В итоговом решении модель не рассказывает, как пришла к выводам, но свои «мысли» на английском расписывает подробнее Gemini. Чтобы прочитать их на русском, можно попросить перевод.

Ответ: «Сначала нужно понять, о чём спрашивают. Ускорение задаётся как функция времени, a = kt. Таким образом, ускорение не является постоянным, оно линейно увеличивается со временем. Это означает, что функции скорости и положения будут сложнее».
Ответ: «Сначала нужно понять, о чём спрашивают. Ускорение задаётся как функция времени, a = kt. Таким образом, ускорение не является постоянным, оно линейно увеличивается со временем. Это означает, что функции скорости и положения будут сложнее».
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: v2= 9,375 м/с, s2= 15,625 м (верно).

Модель начала отвечать на русском, но потом перешла на английский.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Задача 2.

Шарик массой 16 г, движущийся горизонтально, столкнулся с шаром массой 0,8 кг, висящим на прямом недеформируемом и невесомом стержне длиной 1,7 м. Считая удар упругим, определи скорость шарика массой 16 г, если угол отклонения стержня после удара равен 20°.

Правильный ответ: 36,2 м/c.

Gemini 2.0 Flash Thinking: 36,1335 м/с (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: 36,11 м/с (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: 10 м/с (неверно).

Модель решала задачу дольше всех, рассмотрела несколько способов, но выдала неверный ответ.

Анализ таблицы

Определи срок окупаемости проекта, если известно, что для организации предприятия планируется вложить собственные средства в размере 600 тысяч рублей и взять банковский кредит в размере 500 тысяч рублей. Проектируемые дисконтированные результаты деятельности организованного предприятия представлены в таблице.

Правильный ответ: первое полугодие третьего года работы предприятия.
Источник: Экономика: практикум. Дёмина, Ефанов, Зырянова
Источник: Экономика: практикум. Дёмина, Ефанов, Зырянова

Gemini 2.0 Flash Thinking: два года и 24 дня с начала третьего года (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: три года и два месяца (неверно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QvQ-72B: примерно два года и один месяц (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Задачи на логику

Задача 1.


Определи вид дилеммы в отрывке, напиши его формулу: Несколько лет назад китобойцы одного корабля, охотившись на Белого Кита, потерпели крушение. Вступив в бой с Китом, все члены экипажа погибли, за исключением капитана. Капитан собирает новую команду китобойцев. Измученные долгим плаванием, оставшись без продуктов, китобойцы, наконец, встречают Белого кита, который заманивает их во льды. Перед капитаном стоит дилемма: Если мы будем преследовать Кита и далее (а), то мы, обессилев, можем погибнуть во льдах (b). А если мы повернем назад (с), то Белый Кит будет нападать на другие корабли (d).

Правильный ответ:

Источник: Сборник задач по логике. Уткевич
Источник: Сборник задач по логике. Уткевич

Gemini 2.0 Flash Thinking: (a → b) ∧ (c → d) ∧ (a ∨ c) / (b ∨ d).

Модель правильно вывела формулу, но ошиблась в виде дилеммы, назвав её «простой конструктивной» (неверно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: (a→b)∧(c→d)∧(a∨c)→(b∨d).

Формула верная, но дилемма названа просто «безвыходная ситуация» (неверно).

В этом случае DeepSeek не смогла перевести ответ на русский язык
В этом случае DeepSeek не смогла перевести ответ на русский язык
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: [запуталась].

Сначала модель ответила на китайском.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

После просьбы перевести сказанное на русский, выдала ответ на английском, не смогла составить формулу и назвать вид дилеммы.

Ответ: «Моральная дилемма: выбор между риском для жизни своей команды и тем, чтобы позволить киту атаковать другие корабли».
Ответ: «Моральная дилемма: выбор между риском для жизни своей команды и тем, чтобы позволить киту атаковать другие корабли».

Задача 2.


По обвинению в ограблении перед судом предстали А, В и С. Установлено следующее: 1) если А не виновен или B виновен, то С виновен; 2) если А не виновен, то С не виновен. Кто виновен?

Правильный ответ: А виновен, С виновен, B невиновен.

Gemini 2.0 Flash Thinking: виновны A и C, а B — невиновен (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: A и C виновны. Вина B не может быть определена на основе данной информации (неверно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: А виновен (неверно).

Модель не смогла записать все рассуждения на русском
Модель не смогла записать все рассуждения на русском

Поиск ошибок в программном коде

Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fpvs-studio.ru%2Fru%2Fblog%2Fposts%2Fcsharp%2F0926%2F&postId=1723849" rel="nofollow noreferrer noopener" target="_blank">PVS-Studio</a>
Источник: PVS-Studio

Правильный ответ: в этом коде два if с одинаковыми условиями.

Gemini 2.0 Flash Thinking: «Условие if используется дважды: один раз для добавления PUT-ссылок ("update" и "move") и ещё раз для добавления DELETE-ссылки ("delete")» — верно.

Модель прислала переписанный код.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: «Оба if statement проверяют resources. CanUpdateAsset, что является некорректным для добавления ссылки на удаление» — верно.

Модель не исправила код.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: «Основная ошибка в коде — повторяющееся условие в двух блоках if. Вероятно, второе условие должно проверять другое разрешение, например, CanDeleteAsset» — верно.

Модель написала исправленный вариант.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Итоги

  • Gemini 2.0 Flash Thinking решила пять задач из шести. В одном из заданий на логику смогла составить формулу, но не определила вид дилеммы. Лучше других справилась с переводом ответов на русский.
  • DeepSeek 2.5 решила три задачи из шести. Ошиблась в заданиях на логику и анализ таблицы. Не написала верный код в тесте на программирование.
  • Qwen QwQ-32B-Preview решила три задачи из шести. Ошиблась в заданиях на логику и в задаче по физике. Но зато написала исправленный код.
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
  • Одной из первых модель с функцией «рассуждений» — o1 — представила OpenAI 12 сентября 2024 года. Она доступна подписчикам Plus за $20 в месяц с ограничениями по количеству запросов, а также плана Pro за $200 без лимитов. Есть продвинутая версия o1-pro, ей можно пользоваться только по подписке Pro.
  • 20 декабря 2024 года OpenAI анонсировала модели o3 и o3-mini. Пользователи смогут «настроить» время на рассуждение — чем больше времени дать, тем лучше модель справится с запросом. Пока они доступны только тестировщикам.
1111
55
11
11
11
реклама
разместить
45 комментариев

какая разница, я вот вчера взял простой ребус из комментов VC и ни одна нейронка его не решила

10
1

каким нейронкам дали?

Этот ребус читается как "С Новым Годом!"
Вот как это решается:
Сова: "С"
Число 7 и хлеб: "новый" (7 на английском звучит как "seven", и если убрать "s", получится "oven", что звучит как "овен" на русском, что ассоциируется с хлебом)
Лиса с заменой "А" на "b": "годом" (лиса = "fox", заменяем "А" на "b", и получаем "годом")
Таким образом, получается "С Новым Годом!"

кек

1

ура, я все еще умнее ИИ))

славно знать, что я ещё способен с ними тягаться

Крутой ребус. Пришлось немножко попотеть))) Мозг сломала, честно. Неудивительно, что нейронки не справились, куда им до нас))