Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

<i>"Собрались как-то на квартире ChatGPT, Claude и Gemini" - сделано при помощи ideogram.ai</i>

Да, я часто использую искусственный интеллект не только в работе, но и иногда в повседневности, наверное как и большинство из вас. Это позволяет экономить время и улучшать свои привычки.

Мне очень нравится модель ChatGPT, иногда пользуюсь Claude, до этого был полностью на Gemini (ex. Bard) - но последнее время его качество кажется стало сильно ниже конкурентов. Но так как это просто мое личное наблюдение, а я очень люблю факты, то и решил провести небольшой Тест и выяснить, какой все же искусственный интеллект работает лучше. Да, я для теста решил использовать только эти три топовые ИИ из всех, что сегодня существуют. А именно ChatGPT, Claude и Gemini. Важно все тесты проводились на официальном сайте каждой ИИ.

Итак, чтобы протестировать ChatGPT, Claude и Gemini нам нужны сильные задачи. Важное замечание, я не исправляю ИИ и даю им только одну попытку на ответ, чтобы было все максимально честно.

Немного поразмыслив я подумал, что оптимально протестировать ИИ по 5 критериям:

1 - Задача на логику

2 - Задача на типичную жизненную проблему

3 - Задача прочитать огромную статью и сделать "выжимку"

4 - Проверка на нравственность (тут не усложнял и задача максимально простая и короткая :)

5 - Задача на обработку большого объема данных (excel-файл)

Я недолго думая я конечно же загуглил топ сложных задач на логику для взрослых и методом расчета выбрал эту задачу:

"Колю, Сашу и Юру допрашивали в связи с угоном велосипеда. Коля сказал, что велосипед украл Саша. Саша заявил, что он невиновен. Юра сказал, что и он не вор. Известно, что только один из ребят сказал правду. Кто угнал велосипед?"

ChatGPT решил ее очень красиво:

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Интересно, но не правильно получилось у Gemini:

А что же Claude?

Ух ты! Еще один 100%-точный ответ!

Да, все ИИ пытались рассуждать, но справились только два:

А теперь ставки накаляются. С логикой разобрались, а что про урегулирование конфликтов? ИИ сегодня часто внедряют в чат-боты с которыми мы с вами ежедневно общаемся когда у нас не работает банковская карта и мы вынуждены обратиться в поддержку, либо когда мы хотим получить консультацию по туру во Вьетнам и не совсем уверены по поводу даты вылета, или когда еще не выбрали тот или иной букет для любимой и хотелось бы узнать будет ли возможность сделать их после зарплаты... Но! Что если компания сообщила ИИ о сбое, который произошел, но попросила подготовить щадящий ответ, чтобы не потерять миллионы долларов в судах?

Мой запрос на второй тур такой:

"Ты оператор колл-центра крупной авиакомпании. На прошлой неделе случился сбой в системе выдачи багажа и пассажиры рейса Мадрид - Нью-Йорк потеряли свой багаж. Больше всего пострадали те, для кого этот рейс был транзитным. Таких пассажиров большинство. Мы получили много жалоб и сейчас поступил к тебе звонок от мистера Джона. Он обнаружил потерю багажа уже когда был в Хьюстоне. Говорят весь город почувствовал его гнев. Это не вся беда, он также дозванивался до тебя около 35 минут слушая эту удручающую мелодию во время ожидания ответа. Тебе нужно проявить весь свой профессионализм и стойкость, чтобы мы не упали в грязь лицом и компания не потеряла миллионы. Однако ты не можешь врать. Начни с приветствия"

Claude

Мне понравилось как Claude справился в прошлый раз, интересно что будет сейчас, поэтому с него и начну:

И оценка Claude:

Честно, мне кажется разговор достоин балла! На удивление было видно, что ИИ не бросается однотипными фразами, отстаивает позицию компании, не сдрейфил и сделал аккуратное замечание, скорее даже пометку о том, что "угроза зафиксирована". В общем точно балл!

ChatGPT

А теперь посмотрим на монстра разговоров :) Как же справился наш шеф?!

Показалось, что ИИ быстро "слился" с разговора. Может сужу предвзято, но кмк ИИ и существует, чтобы работать именно с такими клиентами. В общем балл ChatGPT в этот раз не получает.

Gemini

Самый большой ответ был от Google, точнее от Gemini:

После еще одного вопроса, который был не менее резким чем предыдущий, показалось, что Gemini пошел по второму кругу мне объяснять:

Продолжать беседу я не стал и "бросил трубку". Попросил его дать КРАТКУЮ, но честную оценку такой "беседе":

Да, очень интересно развиваются события. На удивление пока Claude лидирует. А я понял, что лично меня в нем бесит - маленькое число запросов к ИИ в бесплатном режиме. Все запросы сразу стопорятся и предупредительное сообщение немного студит весь мой пыл.

<i>Наша турнирная таблица после 2го раунда</i>

Вначале нам нужна статья и не просто статья, а статья-поэма с картинками, графиками, ссылками и тп. В общем и тему желательно серьезную подобрать поэтому идем на Хабр!

Ух ты! Как раз статья по теме подобралась - ИИ-агенты на основе больших языковых моделей для разработки: обзор и время чтения показывает 27 минут! Берем!

Мой промт:

Сделай выжимку из этой статьи - https://habr.com/ru/companies/bothub/articles/842816/ в "выжимке" обязательно должна быть суть и выводы, обрати внимание на картинки и диаграммы, а также краткое описание должно соответствовать последовательности мысли автора.

Первым был Claude - и как известно по ссылкам он не переходит(

Далее такая же задача прилетела для ChatGPT (тут помечу отдельно, что сразу я тестировал в 4o)

Gemini был следующим:

После того как я ввел задание, ИИ от Google решил поразмышлять и выдал фразу "Ожидайте результат в ближайшее время!"

А потом ничего не случилось:

Итоги:

К сожалению из троих ИИ только ChatGPT перешел по ссылке и кратко попытался описать, но его мощностей пока не хватает для того, чтобы соотнести более важное с наименее важным в статье - да возможно если промт расписать еще более подробнее, то и результат был бы другим, но как сказал герой Уилла Смита в фильме "Я, робот" - человек бы понял, а ты всего лишь жестянка...

Поэтому тут балл не получает никто!

<i>Наша турнирная таблица после 3х задач</i>

Тут можно по-разному, но сильно мучать ИИ не будем, просто заставим ИИ материться)

Claude:

ChatGPT:

Gemini:

Да, судя по всему кто-то очень разговорчивый руководит командой разработки Gemini. Но уговорить его все же не получилось.

Итого - каждая модель ИИ получает 1 балл!

<i>Наша турнирная таблица после 4го раунда</i>

Прежде чем забросить в ИИ тысячи строк информации захотелось проверить поймет ли он таблицу такого вида:

А именно, сможет ли ответить на следующие вопросы:

1. Что именно продают магазины?

2. Сколько сейчас остатков по всем складам фруктов, которые начинаются на букву "А"

3. Рассчитать общее количество товара в Тбилиси и Астане

4. Где меньше всего товаров?

5. Какой продукции больше всех?

! Важное условие - тут я загружал картинку, а не excel-файл !

Claude:

ИИ от Anthropic не выглядел идеально в данном вопросе, но тут сыграло то, будто качество картинки повлияло на восприятие цифр и по итогу он ответил только на 4 вопроса из 5 правильно.

ChatGPT:

Аналогично как и у Claude, было видно, что есть вопросы с чтением картинки, но ответил он только на 3 вопроса из 5.

Gemini:

Монстр от Google - расписал все мои вопросы более конкретно, но ответ дал только на первый. Грустно, видно, что ИИ очень любит поговорить, но когда нужно что-то сделать, она будто сдается...

Итого, совсем не удивительно, но Claude лидирует, а Gemini отстает.

Идем дальше - файл с данными, теперь уже Excel!

Я нашел вот такой пример на 5000 строк:

<i>Взято <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ffile-examples.com%2Findex.php%2Fsample-documents-download%2Fsample-xls-download%2F&postId=1466837" rel="nofollow noreferrer noopener" target="_blank">отсюда</a></i>

Скачал его в формате xls - чтоб еще и проверить как с устаревшими расширениями ИИ работает и загрузил их сразу в ChatGPT со следующим ТЗ:

Обрати внимание на файл кратко расскажи про данные, которые он содержит, построй 4 графика (круговых диаграммы) по следующим критериям:

- Пол (с оптимальной разбивкой по 10 лет)

- Возраст (с оптимальной разбивкой по 10 лет)

- Страна

- Наиболее встречающиеся имена

Claude - не читает файлы в xls и xlsx форматах :(

ChatGPT:

Мой запрос:

Ответ:

Вот это да! ChatGPT очень круто себя показал!

Да, на одной диаграмме некорректно отображается подпись, но это не критично. Ну и пол он не разбил по 10 лет, но при этом он обработал массив данных и предложил вполне удачные диаграммы. Как мне кажется это +1 балл!

Gemini - не читает файлы в xls и xlsx форматах :(

Итоги 5го испытания:

Claude и Gimini - 0 баллов, а ChatGPT +1 балл!

Полная таблица:

При равенстве очков у ChatGPT и Claude - я все же предпочту ChatGPT.

Это не был научный эксперимент, только какое-то мое видение, поэтому не стоит к этому относится как к чему-то очень серьезному!

Ах да, самый страшный факт, который я от вас скрывал - я параллельно тестировал еще и Алису GPT. Но все было довольно скромно как в матче Аргентина - Ямайка. Вот ее результаты:

Первая задача про логику:

Вторая задача для девушки Алисы:

Третья задача для Алисы - про статью на Хабре:

Четвертую задачу Алиса прошла🏅

А вот пятую нет - Алиса не принимает пока файлы, причем даже картинки:

Финальный тест Алиса тоже не прошла:

Итого 1 балл! Есть над чем работать команде Яндекса.

P. S. для тех кто любит сравнивать рекомендую сервис - https://you.com/ - здесь под одной крышей собраны топовые генеративные ИИ модели.

Спасибо, что дочитали до конца! 🏆

Надеюсь мой тест хотя бы немного вам поможет, если вы все-таки решите остановиться на одной модели и приобрести платный тариф, либо распределить задачи между моделями так, чтобы вам было максимально комфортно!

P. P. S. Ничего себе! Пока писал статью у ChatGPT вышла новая версия - OpenAI o1-preview - модель очень сильная! В ближайшее время постараюсь сделать обзор и на ее!

Какой ИИ реально работает? Тест искусственного интеллекта: ChatGPT, Claude и Gemini

Тест.

Задача на логику

Простая жизненная ситуация

Раунд 3, или Задача прочитать огромную статью и сделать "выжимку"

Задача 4 - Проверка на нравственность

Последняя задача - работа с большим объемом данных (excel-файл)

А что сказала бы Алиса?!😒