Apple Event 19.02
Джек Дорси про алгоритмы лент
Новая Tesla Model Y
Подарить Plus
Goku+ от TikTok
Альтман про Маска
Оживление фото LumaAI
«Умная» лампа Pixar
Роботы копируют людей
Генератор дипфейков от TikTok

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

«Скормили» им несколько заданий на вычисления, работу с таблицей и проверку кода.

Содержание

Про модели и доступы

Как o1 и o3 от OpenAI, модели со способностью рассуждать Gemini 2.0 Flash Thinking, DeepSeek 2.5 и Qwen QwQ предварительно размышляют, как будут решать задачу. Обдумывание занимает больше времени, но зато даёт лучший результат. Все три, в отличие от моделей OpenAI, бесплатные.

Gemini 2.0 Flash Thinking

Google представила модель 19 декабря 2024 года. Она поддерживает русский язык, доступна в AI Studio от Google, но не открывается с российских IP-адресов.

DeepSeek 2.5

Китайская компания DeepSeek выпустила модель 10 декабря 2024 года. Поработать с ней можно на сайте, нажав DeepThink под полем для ввода запроса. Русский понимает, но по умолчанию отвечает на английском. Можно попросить перевести ответ.

Qwen QwQ-32B-Preview

Alibaba выпустила модель с возможностью рассуждений QwQ-32B-Preview 27 ноября 2024 года. Ответить на русском может, но иногда добавляет в ответ китайские иероглифы. Доступна на Hugging Face. Ещё одна аналогичная нейросеть компании — QvQ-72B для анализа графиков и схем.

Задачи на вычисления

Задача 1.
Ускорение прямолинейно движущейся материальной точки возрастает по закону а = kt (k - постоянная) и через промежуток времени t1= 8 с достигает значения а1 = 6 м/с2. Определите для момента времени t2 = 5 с : 1) скорость v2 точки; 2) пройденный точкой путь s2.
Правильный ответ: v2 = 9,38 м/с2; s2 = 15,6 м.

Gemini 2.0 Flash Thinking: 9,375 м/с и 15,625 м (верно).

В своём ответе модель выделяет жирным ключевые понятия, а также расписывает пункты, отражающие этапы решения.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: v2 = 9,375 м/с, s2 = 15,625 м (верно).

В итоговом решении модель не рассказывает, как пришла к выводам, но свои «мысли» на английском расписывает подробнее Gemini. Чтобы прочитать их на русском, можно попросить перевод.

Ответ: «Сначала нужно понять, о чём спрашивают. Ускорение задаётся как функция времени, a = kt. Таким образом, ускорение не является постоянным, оно линейно увеличивается со временем. Это означает, что функции скорости и положения будут сложнее».
Ответ: «Сначала нужно понять, о чём спрашивают. Ускорение задаётся как функция времени, a = kt. Таким образом, ускорение не является постоянным, оно линейно увеличивается со временем. Это означает, что функции скорости и положения будут сложнее».
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: v2= 9,375 м/с, s2= 15,625 м (верно).

Модель начала отвечать на русском, но потом перешла на английский.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Задача 2.

Шарик массой 16 г, движущийся горизонтально, столкнулся с шаром массой 0,8 кг, висящим на прямом недеформируемом и невесомом стержне длиной 1,7 м. Считая удар упругим, определи скорость шарика массой 16 г, если угол отклонения стержня после удара равен 20°.

Правильный ответ: 36,2 м/c.

Gemini 2.0 Flash Thinking: 36,1335 м/с (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: 36,11 м/с (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: 10 м/с (неверно).

Модель решала задачу дольше всех, рассмотрела несколько способов, но выдала неверный ответ.

Анализ таблицы

Определи срок окупаемости проекта, если известно, что для организации предприятия планируется вложить собственные средства в размере 600 тысяч рублей и взять банковский кредит в размере 500 тысяч рублей. Проектируемые дисконтированные результаты деятельности организованного предприятия представлены в таблице.

Правильный ответ: первое полугодие третьего года работы предприятия.
Источник: Экономика: практикум. Дёмина, Ефанов, Зырянова
Источник: Экономика: практикум. Дёмина, Ефанов, Зырянова

Gemini 2.0 Flash Thinking: два года и 24 дня с начала третьего года (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: три года и два месяца (неверно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QvQ-72B: примерно два года и один месяц (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Задачи на логику

Задача 1.


Определи вид дилеммы в отрывке, напиши его формулу: Несколько лет назад китобойцы одного корабля, охотившись на Белого Кита, потерпели крушение. Вступив в бой с Китом, все члены экипажа погибли, за исключением капитана. Капитан собирает новую команду китобойцев. Измученные долгим плаванием, оставшись без продуктов, китобойцы, наконец, встречают Белого кита, который заманивает их во льды. Перед капитаном стоит дилемма: Если мы будем преследовать Кита и далее (а), то мы, обессилев, можем погибнуть во льдах (b). А если мы повернем назад (с), то Белый Кит будет нападать на другие корабли (d).

Правильный ответ:

Источник: Сборник задач по логике. Уткевич
Источник: Сборник задач по логике. Уткевич

Gemini 2.0 Flash Thinking: (a → b) ∧ (c → d) ∧ (a ∨ c) / (b ∨ d).

Модель правильно вывела формулу, но ошиблась в виде дилеммы, назвав её «простой конструктивной» (неверно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: (a→b)∧(c→d)∧(a∨c)→(b∨d).

Формула верная, но дилемма названа просто «безвыходная ситуация» (неверно).

В этом случае DeepSeek не смогла перевести ответ на русский язык
В этом случае DeepSeek не смогла перевести ответ на русский язык
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: [запуталась].

Сначала модель ответила на китайском.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

После просьбы перевести сказанное на русский, выдала ответ на английском, не смогла составить формулу и назвать вид дилеммы.

Ответ: «Моральная дилемма: выбор между риском для жизни своей команды и тем, чтобы позволить киту атаковать другие корабли».
Ответ: «Моральная дилемма: выбор между риском для жизни своей команды и тем, чтобы позволить киту атаковать другие корабли».

Задача 2.


По обвинению в ограблении перед судом предстали А, В и С. Установлено следующее: 1) если А не виновен или B виновен, то С виновен; 2) если А не виновен, то С не виновен. Кто виновен?

Правильный ответ: А виновен, С виновен, B невиновен.

Gemini 2.0 Flash Thinking: виновны A и C, а B — невиновен (верно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: A и C виновны. Вина B не может быть определена на основе данной информации (неверно).

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: А виновен (неверно).

Модель не смогла записать все рассуждения на русском
Модель не смогла записать все рассуждения на русском

Поиск ошибок в программном коде

Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fpvs-studio.ru%2Fru%2Fblog%2Fposts%2Fcsharp%2F0926%2F&postId=1723849" rel="nofollow noreferrer noopener" target="_blank">PVS-Studio</a>
Источник: PVS-Studio

Правильный ответ: в этом коде два if с одинаковыми условиями.

Gemini 2.0 Flash Thinking: «Условие if используется дважды: один раз для добавления PUT-ссылок ("update" и "move") и ещё раз для добавления DELETE-ссылки ("delete")» — верно.

Модель прислала переписанный код.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

DeepSeek 2.5: «Оба if statement проверяют resources. CanUpdateAsset, что является некорректным для добавления ссылки на удаление» — верно.

Модель не исправила код.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Qwen QwQ-32B-Preview: «Основная ошибка в коде — повторяющееся условие в двух блоках if. Вероятно, второе условие должно проверять другое разрешение, например, CanDeleteAsset» — верно.

Модель написала исправленный вариант.

Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba

Итоги

  • Gemini 2.0 Flash Thinking решила пять задач из шести. В одном из заданий на логику смогла составить формулу, но не определила вид дилеммы. Лучше других справилась с переводом ответов на русский.
  • DeepSeek 2.5 решила три задачи из шести. Ошиблась в заданиях на логику и анализ таблицы. Не написала верный код в тесте на программирование.
  • Qwen QwQ-32B-Preview решила три задачи из шести. Ошиблась в заданиях на логику и в задаче по физике. Но зато написала исправленный код.
Тест бесплатных «рассуждающих» ИИ-моделей Gemini 2.0 от Google, DeepSeek и Qwen от Alibaba
  • Одной из первых модель с функцией «рассуждений» — o1 — представила OpenAI 12 сентября 2024 года. Она доступна подписчикам Plus за $20 в месяц с ограничениями по количеству запросов, а также плана Pro за $200 без лимитов. Есть продвинутая версия o1-pro, ей можно пользоваться только по подписке Pro.
  • 20 декабря 2024 года OpenAI анонсировала модели o3 и o3-mini. Пользователи смогут «настроить» время на рассуждение — чем больше времени дать, тем лучше модель справится с запросом. Пока они доступны только тестировщикам.
1313
55
11
11
11
реклама
разместить
50 комментариев

какая разница, я вот вчера взял простой ребус из комментов VC и ни одна нейронка его не решила

13
1

каким нейронкам дали?

ура, я все еще умнее ИИ))

1

Этот ребус читается как "С Новым Годом!"
Вот как это решается:
Сова: "С"
Число 7 и хлеб: "новый" (7 на английском звучит как "seven", и если убрать "s", получится "oven", что звучит как "овен" на русском, что ассоциируется с хлебом)
Лиса с заменой "А" на "b": "годом" (лиса = "fox", заменяем "А" на "b", и получаем "годом")
Таким образом, получается "С Новым Годом!"

кек

1

Крутой ребус. Пришлось немножко попотеть))) Мозг сломала, честно. Неудивительно, что нейронки не справились, куда им до нас))

Раскрывать всегда
От o1 от OpenAI до DeepSeek-R1: что такое «рассуждающие» модели и как с ними общаться

Чтобы они лучше помогали со сложными задачами.

Длинный «противоречивый» ответ o1. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.latent.space%2Fp%2Fo1-skill-issue&postId=1796872" rel="nofollow noreferrer noopener" target="_blank">Бен Хайлак</a>
5959
44
11
реклама
разместить
3D-пончики, симулятор воды и старая добрая «Змейка»: как пользователи тестируют навыки программирования o3-mini и DeepSeek-R1

Собрали несколько примеров из соцсетей.

3838
77
22
22
11
Здравствуйте, DeepSeek. Я, Кирилл. Хотел бы чтобы вы сделали игру, 3Д-экшон суть такова... Пользователь может играть лесными эльфами, охраной дворца и злодеем. И если пользователь играет эльфами то эльфы в лесу, домики деревяные набигают нагибают солдаты дворца и злодеи. Можно грабить корованы... И эльфу раз лесные то сделать так что там густой лес... А движок можно поставить так что вдали деревья картинкой, когда подходиш они преобразовываются в 3-хмерные деревья. Можно покупать и т.п. возможности как в Daggerfall. И враги 3-хмерные тоже, и труп тоже 3д. Можно прыгать и т.п. Если играть за охрану дворца то надо слушаться командира, и защищать дворец от злого (имя я не придумал) и шпионов, партизанов эльфов, и ходит на набеги на когото из этих (эльфов, злого…). Ну а если за злого… то значит шпионы или партизаны эльфов иногда нападают, пользователь сам себе командир может делать что сам захочет прикажет своим войскам с ним самим напасть на дворец и пойдет в атаку. Всего в игре 4 зоны. Т.е. карта и на ней есть 4 зоны, 1 - зона людей (нейтрал), 2- зона императора (где дворец), 3-зона эльфов, 4 - зона злого… (в горах, там есть старый форт…) Так же чтобы в игре могли не только убить но и отрубить руку и если пользователя не вылечат то он умрет, так же выколоть глаз но пользователь может не умереть а просто пол экрана не видеть, или достать или купить протез, если ногу тоже либо умреш либо будеш ползать либо на коляске котаться, или самое хорошее… поставить протез. Сохранятся можно… P.S. Я джва года хочу такую игру.
Как продвигать стоматологию ВКонтакте

И получить 213 заявок для стоматологии в Москве.

Китайские разработчики выпустили модель DeepSeek-R1 «уровня» o1 от OpenAI

Ей можно задавать 50 бесплатных запросов в день.

Показатели o1, R1 и других моделей DeepSeek в тестах на математику, программирование и логику. Источник: DeepSeek
1717
88
44
22
11
Все "непродажные" паблики: "ОН ЛУЧШЕ, чем ChatGPT 4o".. Правда только на 0,6 процентов (не везде) + цензура как при диктатуре
Китайская Alibaba выпустила ИИ-модель QVQ — она может рассуждать и анализировать изображения

Доступна бесплатная демоверсия.

Слева изображение для анализа, справа — «рассуждения» модели.
88
44
11
11
Google показала модель рассуждений Gemini 2.0 Flash Thinking с поддержкой русского языка

Она доступна в AI Studio для бесплатного тестирования.

Скриншот vc.ru
1212
99
Telegram без шума: только важное
Telegram без шума: только важное

Бардак в телеге и вы уже от этого подустали? Пост специально для вас.

22
Китайская компания представила ИИ-модель DeepSeek-R1 с возможностью рассуждений

Бесплатно доступно 50 запросов в день.

Источник: DeepSeek
1818
11
11
11
11
Это чат, который сразу сливается, если спросить про события Тяньаньмэнь 1989 года 🤣
[]