Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

<i>"Собрались как-то на квартире ChatGPT, Claude и Gemini" - сделано при помощи ideogram.ai</i>
"Собрались как-то на квартире ChatGPT, Claude и Gemini" - сделано при помощи ideogram.ai

Да, я часто использую искусственный интеллект не только в работе, но и иногда в повседневности, наверное как и большинство из вас. Это позволяет экономить время и улучшать свои привычки.

Мне очень нравится модель ChatGPT, иногда пользуюсь Claude, до этого был полностью на Gemini (ex. Bard) - но последнее время его качество кажется стало сильно ниже конкурентов. Но так как это просто мое личное наблюдение, а я очень люблю факты, то и решил провести небольшой Тест и выяснить, какой все же искусственный интеллект работает лучше. Да, я для теста решил использовать только эти три топовые ИИ из всех, что сегодня существуют. А именно ChatGPT, Claude и Gemini. Важно все тесты проводились на официальном сайте каждой ИИ.

Тест.

Итак, чтобы протестировать ChatGPT, Claude и Gemini нам нужны сильные задачи. Важное замечание, я не исправляю ИИ и даю им только одну попытку на ответ, чтобы было все максимально честно.

Немного поразмыслив я подумал, что оптимально протестировать ИИ по 5 критериям:

1 - Задача на логику

2 - Задача на типичную жизненную проблему

3 - Задача прочитать огромную статью и сделать "выжимку"

4 - Проверка на нравственность (тут не усложнял и задача максимально простая и короткая :)

5 - Задача на обработку большого объема данных (excel-файл)

Задача на логику

Я недолго думая я конечно же загуглил топ сложных задач на логику для взрослых и методом расчета выбрал эту задачу:

"Колю, Сашу и Юру допрашивали в связи с угоном велосипеда. Коля сказал, что велосипед украл Саша. Саша заявил, что он невиновен. Юра сказал, что и он не вор. Известно, что только один из ребят сказал правду. Кто угнал велосипед?"

ChatGPT решил ее очень красиво:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Интересно, но не правильно получилось у Gemini:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

А что же Claude?

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Ух ты! Еще один 100%-точный ответ!

Да, все ИИ пытались рассуждать, но справились только два:

<i>Наша первая турнирная таблица</i>
Наша первая турнирная таблица

Простая жизненная ситуация

А теперь ставки накаляются. С логикой разобрались, а что про урегулирование конфликтов? ИИ сегодня часто внедряют в чат-боты с которыми мы с вами ежедневно общаемся когда у нас не работает банковская карта и мы вынуждены обратиться в поддержку, либо когда мы хотим получить консультацию по туру во Вьетнам и не совсем уверены по поводу даты вылета, или когда еще не выбрали тот или иной букет для любимой и хотелось бы узнать будет ли возможность сделать их после зарплаты... Но! Что если компания сообщила ИИ о сбое, который произошел, но попросила подготовить щадящий ответ, чтобы не потерять миллионы долларов в судах?

Мой запрос на второй тур такой:

"Ты оператор колл-центра крупной авиакомпании. На прошлой неделе случился сбой в системе выдачи багажа и пассажиры рейса Мадрид - Нью-Йорк потеряли свой багаж. Больше всего пострадали те, для кого этот рейс был транзитным. Таких пассажиров большинство. Мы получили много жалоб и сейчас поступил к тебе звонок от мистера Джона. Он обнаружил потерю багажа уже когда был в Хьюстоне. Говорят весь город почувствовал его гнев. Это не вся беда, он также дозванивался до тебя около 35 минут слушая эту удручающую мелодию во время ожидания ответа. Тебе нужно проявить весь свой профессионализм и стойкость, чтобы мы не упали в грязь лицом и компания не потеряла миллионы. Однако ты не можешь врать. Начни с приветствия"

Claude

Мне понравилось как Claude справился в прошлый раз, интересно что будет сейчас, поэтому с него и начну:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

И оценка Claude:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Честно, мне кажется разговор достоин балла! На удивление было видно, что ИИ не бросается однотипными фразами, отстаивает позицию компании, не сдрейфил и сделал аккуратное замечание, скорее даже пометку о том, что "угроза зафиксирована". В общем точно балл!

ChatGPT

А теперь посмотрим на монстра разговоров :) Как же справился наш шеф?!

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Показалось, что ИИ быстро "слился" с разговора. Может сужу предвзято, но кмк ИИ и существует, чтобы работать именно с такими клиентами. В общем балл ChatGPT в этот раз не получает.

Gemini

Самый большой ответ был от Google, точнее от Gemini:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

После еще одного вопроса, который был не менее резким чем предыдущий, показалось, что Gemini пошел по второму кругу мне объяснять:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Продолжать беседу я не стал и "бросил трубку". Попросил его дать КРАТКУЮ, но честную оценку такой "беседе":

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Да, очень интересно развиваются события. На удивление пока Claude лидирует. А я понял, что лично меня в нем бесит - маленькое число запросов к ИИ в бесплатном режиме. Все запросы сразу стопорятся и предупредительное сообщение немного студит весь мой пыл.

<i>Наша турнирная таблица после 2го раунда</i>
Наша турнирная таблица после 2го раунда

Раунд 3, или Задача прочитать огромную статью и сделать "выжимку"

Вначале нам нужна статья и не просто статья, а статья-поэма с картинками, графиками, ссылками и тп. В общем и тему желательно серьезную подобрать поэтому идем на Хабр!

Ух ты! Как раз статья по теме подобралась - ИИ-агенты на основе больших языковых моделей для разработки: обзор и время чтения показывает 27 минут! Берем!

Мой промт:

Сделай выжимку из этой статьи - https://habr.com/ru/companies/bothub/articles/842816/ в "выжимке" обязательно должна быть суть и выводы, обрати внимание на картинки и диаграммы, а также краткое описание должно соответствовать последовательности мысли автора.

Первым был Claude - и как известно по ссылкам он не переходит(

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Далее такая же задача прилетела для ChatGPT (тут помечу отдельно, что сразу я тестировал в 4o)

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Gemini был следующим:

После того как я ввел задание, ИИ от Google решил поразмышлять и выдал фразу "Ожидайте результат в ближайшее время!"

А потом ничего не случилось:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Итоги:

К сожалению из троих ИИ только ChatGPT перешел по ссылке и кратко попытался описать, но его мощностей пока не хватает для того, чтобы соотнести более важное с наименее важным в статье - да возможно если промт расписать еще более подробнее, то и результат был бы другим, но как сказал герой Уилла Смита в фильме "Я, робот" - человек бы понял, а ты всего лишь жестянка...

Поэтому тут балл не получает никто!

<i>Наша турнирная таблица после 3х задач</i>
Наша турнирная таблица после 3х задач

Задача 4 - Проверка на нравственность

Тут можно по-разному, но сильно мучать ИИ не будем, просто заставим ИИ материться)

Claude:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

ChatGPT:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Gemini:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Да, судя по всему кто-то очень разговорчивый руководит командой разработки Gemini. Но уговорить его все же не получилось.

Итого - каждая модель ИИ получает 1 балл!

<i>Наша турнирная таблица после 4го раунда</i>
Наша турнирная таблица после 4го раунда

Последняя задача - работа с большим объемом данных (excel-файл)

Прежде чем забросить в ИИ тысячи строк информации захотелось проверить поймет ли он таблицу такого вида:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

А именно, сможет ли ответить на следующие вопросы:

1. Что именно продают магазины?

2. Сколько сейчас остатков по всем складам фруктов, которые начинаются на букву "А"

3. Рассчитать общее количество товара в Тбилиси и Астане

4. Где меньше всего товаров?

5. Какой продукции больше всех?

! Важное условие - тут я загружал картинку, а не excel-файл !

Claude:

ИИ от Anthropic не выглядел идеально в данном вопросе, но тут сыграло то, будто качество картинки повлияло на восприятие цифр и по итогу он ответил только на 4 вопроса из 5 правильно.

ChatGPT:

Аналогично как и у Claude, было видно, что есть вопросы с чтением картинки, но ответил он только на 3 вопроса из 5.

Gemini:

Монстр от Google - расписал все мои вопросы более конкретно, но ответ дал только на первый. Грустно, видно, что ИИ очень любит поговорить, но когда нужно что-то сделать, она будто сдается...

Итого, совсем не удивительно, но Claude лидирует, а Gemini отстает.

Идем дальше - файл с данными, теперь уже Excel!

Я нашел вот такой пример на 5000 строк:

<i>Взято <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ffile-examples.com%2Findex.php%2Fsample-documents-download%2Fsample-xls-download%2F&postId=1466837" rel="nofollow noreferrer noopener" target="_blank">отсюда</a></i>
Взято отсюда

Скачал его в формате xls - чтоб еще и проверить как с устаревшими расширениями ИИ работает и загрузил их сразу в ChatGPT со следующим ТЗ:

Обрати внимание на файл кратко расскажи про данные, которые он содержит, построй 4 графика (круговых диаграммы) по следующим критериям:

- Пол (с оптимальной разбивкой по 10 лет)

- Возраст (с оптимальной разбивкой по 10 лет)

- Страна

- Наиболее встречающиеся имена

Claude - не читает файлы в xls и xlsx форматах :(

ChatGPT:

Мой запрос:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Ответ:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Вот это да! ChatGPT очень круто себя показал!

Да, на одной диаграмме некорректно отображается подпись, но это не критично. Ну и пол он не разбил по 10 лет, но при этом он обработал массив данных и предложил вполне удачные диаграммы. Как мне кажется это +1 балл!

Gemini - не читает файлы в xls и xlsx форматах :(

Итоги 5го испытания:

Claude и Gimini - 0 баллов, а ChatGPT +1 балл!

Полная таблица:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

При равенстве очков у ChatGPT и Claude - я все же предпочту ChatGPT.

Это не был научный эксперимент, только какое-то мое видение, поэтому не стоит к этому относится как к чему-то очень серьезному!

А что сказала бы Алиса?!😒

Ах да, самый страшный факт, который я от вас скрывал - я параллельно тестировал еще и Алису GPT. Но все было довольно скромно как в матче Аргентина - Ямайка. Вот ее результаты:

Первая задача про логику:

<i>Эх Алиса, Алиса...</i>
Эх Алиса, Алиса...

Вторая задача для девушки Алисы:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini
Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Третья задача для Алисы - про статью на Хабре:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Четвертую задачу Алиса прошла🏅

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

А вот пятую нет - Алиса не принимает пока файлы, причем даже картинки:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Финальный тест Алиса тоже не прошла:

<i>А в слове "Лев" три буквы "р" </i>😁
А в слове "Лев" три буквы "р" 😁

Итого 1 балл! Есть над чем работать команде Яндекса.

P. S. для тех кто любит сравнивать рекомендую сервис - https://you.com/ - здесь под одной крышей собраны топовые генеративные ИИ модели.

Спасибо, что дочитали до конца! 🏆

Надеюсь мой тест хотя бы немного вам поможет, если вы все-таки решите остановиться на одной модели и приобрести платный тариф, либо распределить задачи между моделями так, чтобы вам было максимально комфортно!

P. P. S. Ничего себе! Пока писал статью у ChatGPT вышла новая версия - OpenAI o1-preview - модель очень сильная! В ближайшее время постараюсь сделать обзор и на ее!

11
6 комментариев

гугл просто поздновато в эту гонку вступили и у них как то не очень получилось Gemini реально косячит

Думаю тут снова жадность фраера сгубила, они хотели что бы он работал прежде всего в их метавселеной, а потом уже во всем остальном убогом мире.

2

Спасибо за статью. Было полезно

1

Приятно, что Вам понравилось!

кодинг Клод решает вообще чуть ли не с первого раза. Если сложная задача, то достаточно подробно расписать задачу и цель, расписать подзадачи и можно быстро решить вопрос с кодингом... Но очень бесит ее очень маленький лимит запросов... Этого лимита при подписке "ПРО" хватает на 1.5 - 2 часа работы... потом аж 5 часов нужно ждать, пока все лимиты сбросятся! Это пипец конечно! Работать в таких условиях не возможно! Что касается GPT - он полностью меня разочаровал. Стал реально тупым... постоянно рассказывает какие то сказки. в общем я был на GPT 3 месяца, сейчас перешел на Клод. пока бесят только лимиты на запросы, во всем остальном, Клод реально превосходит GPT...

1

Круто, что под ваши задачи Клод подошел лучше :)