Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
«Скормили» им несколько заданий на вычисления, работу с таблицей и проверку кода.
Содержание
Про модели и доступы
Gemini 2.0 Flash Thinking
Google представила модель 19 декабря 2024 года. Она поддерживает русский язык, доступна в AI Studio от Google, но не открывается с российских IP-адресов.
DeepSeek 2.5
Qwen QwQ-32B-Preview
Alibaba выпустила модель с возможностью рассуждений QwQ-32B-Preview 27 ноября 2024 года. Ответить на русском может, но иногда добавляет в ответ китайские иероглифы. Доступна на Hugging Face. Ещё одна аналогичная нейросеть компании — QvQ-72B для анализа графиков и схем.
Задачи на вычисления
Задача 1.
Ускорение прямолинейно движущейся материальной точки возрастает по закону а = kt (k - постоянная) и через промежуток времени t1= 8 с достигает значения а1 = 6 м/с2. Определите для момента времени t2 = 5 с : 1) скорость v2 точки; 2) пройденный точкой путь s2.
Gemini 2.0 Flash Thinking: 9,375 м/с и 15,625 м (верно).
В своём ответе модель выделяет жирным ключевые понятия, а также расписывает пункты, отражающие этапы решения.
DeepSeek 2.5: v2 = 9,375 м/с, s2 = 15,625 м (верно).
В итоговом решении модель не рассказывает, как пришла к выводам, но свои «мысли» на английском расписывает подробнее Gemini. Чтобы прочитать их на русском, можно попросить перевод.
Qwen QwQ-32B-Preview: v2= 9,375 м/с, s2= 15,625 м (верно).
Модель начала отвечать на русском, но потом перешла на английский.
Задача 2.
Шарик массой 16 г, движущийся горизонтально, столкнулся с шаром массой 0,8 кг, висящим на прямом недеформируемом и невесомом стержне длиной 1,7 м. Считая удар упругим, определи скорость шарика массой 16 г, если угол отклонения стержня после удара равен 20°.
Gemini 2.0 Flash Thinking: 36,1335 м/с (верно).
DeepSeek 2.5: 36,11 м/с (верно).
Qwen QwQ-32B-Preview: 10 м/с (неверно).
Модель решала задачу дольше всех, рассмотрела несколько способов, но выдала неверный ответ.
Анализ таблицы
Определи срок окупаемости проекта, если известно, что для организации предприятия планируется вложить собственные средства в размере 600 тысяч рублей и взять банковский кредит в размере 500 тысяч рублей. Проектируемые дисконтированные результаты деятельности организованного предприятия представлены в таблице.
Gemini 2.0 Flash Thinking: два года и 24 дня с начала третьего года (верно).
DeepSeek 2.5: три года и два месяца (неверно).
Qwen QvQ-72B: примерно два года и один месяц (верно).
Задачи на логику
Задача 1.
Определи вид дилеммы в отрывке, напиши его формулу: Несколько лет назад китобойцы одного корабля, охотившись на Белого Кита, потерпели крушение. Вступив в бой с Китом, все члены экипажа погибли, за исключением капитана. Капитан собирает новую команду китобойцев. Измученные долгим плаванием, оставшись без продуктов, китобойцы, наконец, встречают Белого кита, который заманивает их во льды. Перед капитаном стоит дилемма: Если мы будем преследовать Кита и далее (а), то мы, обессилев, можем погибнуть во льдах (b). А если мы повернем назад (с), то Белый Кит будет нападать на другие корабли (d).
Правильный ответ:
Gemini 2.0 Flash Thinking: (a → b) ∧ (c → d) ∧ (a ∨ c) / (b ∨ d).
Модель правильно вывела формулу, но ошиблась в виде дилеммы, назвав её «простой конструктивной» (неверно).
DeepSeek 2.5: (a→b)∧(c→d)∧(a∨c)→(b∨d).
Формула верная, но дилемма названа просто «безвыходная ситуация» (неверно).
Qwen QwQ-32B-Preview: [запуталась].
Сначала модель ответила на китайском.
После просьбы перевести сказанное на русский, выдала ответ на английском, не смогла составить формулу и назвать вид дилеммы.
Задача 2.
По обвинению в ограблении перед судом предстали А, В и С. Установлено следующее: 1) если А не виновен или B виновен, то С виновен; 2) если А не виновен, то С не виновен. Кто виновен?
Gemini 2.0 Flash Thinking: виновны A и C, а B — невиновен (верно).
DeepSeek 2.5: A и C виновны. Вина B не может быть определена на основе данной информации (неверно).
Qwen QwQ-32B-Preview: А виновен (неверно).
Поиск ошибок в программном коде
Правильный ответ: в этом коде два if с одинаковыми условиями.
Gemini 2.0 Flash Thinking: «Условие if используется дважды: один раз для добавления PUT-ссылок ("update" и "move") и ещё раз для добавления DELETE-ссылки ("delete")» — верно.
Модель прислала переписанный код.
DeepSeek 2.5: «Оба if statement проверяют resources. CanUpdateAsset, что является некорректным для добавления ссылки на удаление» — верно.
Модель не исправила код.
Qwen QwQ-32B-Preview: «Основная ошибка в коде — повторяющееся условие в двух блоках if. Вероятно, второе условие должно проверять другое разрешение, например, CanDeleteAsset» — верно.
Модель написала исправленный вариант.
Итоги
- Gemini 2.0 Flash Thinking решила пять задач из шести. В одном из заданий на логику смогла составить формулу, но не определила вид дилеммы. Лучше других справилась с переводом ответов на русский.
- DeepSeek 2.5 решила три задачи из шести. Ошиблась в заданиях на логику и анализ таблицы. Не написала верный код в тесте на программирование.
- Qwen QwQ-32B-Preview решила три задачи из шести. Ошиблась в заданиях на логику и в задаче по физике. Но зато написала исправленный код.
- Одной из первых модель с функцией «рассуждений» — o1 — представила OpenAI 12 сентября 2024 года. Она доступна подписчикам Plus за $20 в месяц с ограничениями по количеству запросов, а также плана Pro за $200 без лимитов. Есть продвинутая версия o1-pro, ей можно пользоваться только по подписке Pro.
- 20 декабря 2024 года OpenAI анонсировала модели o3 и o3-mini. Пользователи смогут «настроить» время на рассуждение — чем больше времени дать, тем лучше модель справится с запросом. Пока они доступны только тестировщикам.
Собрали несколько примеров из соцсетей.
Бардак в телеге и вы уже от этого подустали? Пост специально для вас.
какая разница, я вот вчера взял простой ребус из комментов VC и ни одна нейронка его не решила
каким нейронкам дали?
ура, я все еще умнее ИИ))
Этот ребус читается как "С Новым Годом!"
Вот как это решается:
Сова: "С"
Число 7 и хлеб: "новый" (7 на английском звучит как "seven", и если убрать "s", получится "oven", что звучит как "овен" на русском, что ассоциируется с хлебом)
Лиса с заменой "А" на "b": "годом" (лиса = "fox", заменяем "А" на "b", и получаем "годом")
Таким образом, получается "С Новым Годом!"
кек
Моя решила
Крутой ребус. Пришлось немножко попотеть))) Мозг сломала, честно. Неудивительно, что нейронки не справились, куда им до нас))