Битва титанов: новинка YandexGPT 3 против ChatGPT, Claude и Gemini

Битва титанов: новинка YandexGPT 3 против ChatGPT, Claude и Gemini

Привет, друзья! Яндекс недавно выпустил свою новую модель YandexGPT 3, и мы в GPTunneL, как основной агрегатор нейросетей на рынке РФ, не могли пройти мимо этой новости. Яндекс заявил, что их новая модель лучше понимает вопросы, решает задачи и реже ошибается по сравнению с предыдущей версией. Более того, они открыто заявили о превосходстве Yandex GPT 3 над ChatGPT-3.5 Turbo.

Данные которые заявляет Яндекс
Данные которые заявляет Яндекс

Мы давно работаем с YandexGPT и до сих пор испытывали ощущение, что она не идеальна. Кроме того, поскольку мы предоставляем нашим клиентам доступ к моделям ChatGPT всех поколений, а также к Anthropic Claude и Gemini, нас особенно заинтересовало сравнение всех этих моделей между собой.

Итак, кто же выйдет победителем из этой схватки титанов? Разберемся вместе!

Как будем тестировать?

В GPTunneL мы разработали внутренний инструмент для сравнения качества ответов различных нейросетей — Арену GPTunneL.

Её использование предельно просто:

0. Переходите по ссылке — gptunnel.ru/arena

1. Выбираете две модели.

2. Вводите промпт

3. Устраиваете соревнования между моделями

Теперь мы решили предоставить возможность тестировать Yandex GPT 3 не только внутри команды, но и всем читателям vc.ru. Перейдя по специальной ссылке — gptunnel.ru/arena/, Вы сможете зарегистрироваться и получить доступ к арене прямо из настроек вашего профиля, чтобы лично проверить возможности каждой из доступных моделей. К тому же, чтобы сделать ваши эксперименты ещё более интересными, мы предоставляем бонус в размере 50 рублей всем новым пользователям, которые воспользуются этой ссылкой!

Рейтинг LLM-моделей: логические задачи

Итак, как же проходили наши испытания? Мы подготовили серию вопросов на логику и прогнали через них все модели-участницы. Результаты оказались весьма любопытными! Yandex GPT 3 действительно показала значительный прогресс по сравнению с предыдущей версией — GPT 2 на ее фоне смотрится довольно бледно. Однако, назвать Яндекс GPT 3 серьезным конкурентом лидеров мирового рынка AI, к сожалению, пока рано: старый ChatGPT-3 Turbo во многом не уступает новичку, а ChatGPT 4, Claude, ожидаемо, во многих аспектах превосходят детище Яндекса.

К тому же, Yandex GPT 3 иногда допускает ошибки, порой выдавая совершенно абсурдные ответы, что иллюстрируется примерами ниже. Другие модели AI из теста таких ответов себе не позволяли.

Пример кринжа от YaGPT-3
Пример кринжа от YaGPT-3
Пример кринжа от YaGPT-2
Пример кринжа от YaGPT-2

Итого наш рейтинг моделей при тестировании на логические задачи составил:

Модель — Результат правильных ответов в %

8 место — Yandex GPT-2 — 0%

7 место — Yandex GPT-3 - 14%

6 место — ChatGPT-3.5 — 21%

5 место — Gemini Pro — 29%

4 место — Claude Haiku-3 — 43%

3, 2 и 1 место — 71%, 79% и 86% соответственно.

Хотите узнать победителей и подробности тестирования? Добро пожаловать в наш Google-документ ссылка, где вы найдете результаты всех тестов, проведенных нами по состоянию на 31.03.2024. Знакомьтесь с ответами каждой из нейросетей, сравнивайте и делайте собственные выводы!

В заключении хотелось бы сказать, что поскольку модель появилась на рынке совсем недавно, мы ещё не успели полностью оценить её способности в генерации текстов, реальной стоимости использования, производительности. Модель была интегрирована в наш сервис всего неделю назад, и на данный момент мы не замечаем к ней высокого интереса со стороны частных пользователей. Мы предполагаем, что основными пользователями данной модели станут юридические лица, с которыми мы планируем провести совместные тесты на прикладное применение модели. Практическим опытом использования данной модели ИИ и результатами тестов мы поделимся позднее.

Переходите на нашу ИИ-арену, регистрируйтесь по ссылке и получайте 50 рублей на баланс для тестирования моделей. Проверьте наши выводы и расскажите о своих результатах в комментариях!

55
20 комментариев

Яндекс.ГПТ2 че-то совсем в ж*пе

2
Ответить

ЯndеX XepnR

1
Ответить

Безумие) Claude топчик

1
Ответить

Отличная нейросеть. Не такая популярная в России как ChatGPT 4, но при этом по многим параметрам превосходящая её

Ответить

Прошло 3 мес от начала нашей переписки с разрабами Яндекс. Мы просили инструкцию для экспорта событий в Яндекс календарь.Сама суть ответа показывает уровень компетенций в этой конторе🤷

1
Ответить

Поиск и Go у Яндекса мощные. Остальные продукты, согласен, как будто ниже уровнем.

Ответить

Подскажите, пожалуйста, Gemini использовалась версия 1.5 или просто Gemini pro?

1
Ответить