Битва титанов: новинка YandexGPT 3 против ChatGPT, Claude и Gemini

Привет, друзья! Яндекс недавно выпустил свою новую модель YandexGPT 3, и мы в GPTunneL, как основной агрегатор нейросетей на рынке РФ, не могли пройти мимо этой новости. Яндекс заявил, что их новая модель лучше понимает вопросы, решает задачи и реже ошибается по сравнению с предыдущей версией. Более того, они открыто заявили о превосходстве Yandex GPT 3 над ChatGPT-3.5 Turbo.

Мы давно работаем с YandexGPT и до сих пор испытывали ощущение, что она не идеальна. Кроме того, поскольку мы предоставляем нашим клиентам доступ к моделям ChatGPT всех поколений, а также к Anthropic Claude и Gemini, нас особенно заинтересовало сравнение всех этих моделей между собой.

Итак, кто же выйдет победителем из этой схватки титанов? Разберемся вместе!

Как будем тестировать?

В GPTunneL мы разработали внутренний инструмент для сравнения качества ответов различных нейросетей — Арену GPTunneL.

Её использование предельно просто:

0. Переходите по ссылке — gptunnel.ru/arena

1. Выбираете две модели.

2. Вводите промпт

3. Устраиваете соревнования между моделями

Теперь мы решили предоставить возможность тестировать Yandex GPT 3 не только внутри команды, но и всем читателям vc.ru. Перейдя по специальной ссылке — gptunnel.ru/arena/, Вы сможете зарегистрироваться и получить доступ к арене прямо из настроек вашего профиля, чтобы лично проверить возможности каждой из доступных моделей. К тому же, чтобы сделать ваши эксперименты ещё более интересными, мы предоставляем бонус в размере 50 рублей всем новым пользователям, которые воспользуются этой ссылкой!

Рейтинг LLM-моделей: логические задачи

Итак, как же проходили наши испытания? Мы подготовили серию вопросов на логику и прогнали через них все модели-участницы. Результаты оказались весьма любопытными! Yandex GPT 3 действительно показала значительный прогресс по сравнению с предыдущей версией — GPT 2 на ее фоне смотрится довольно бледно. Однако, назвать Яндекс GPT 3 серьезным конкурентом лидеров мирового рынка AI, к сожалению, пока рано: старый ChatGPT-3 Turbo во многом не уступает новичку, а ChatGPT 4, Claude, ожидаемо, во многих аспектах превосходят детище Яндекса.

К тому же, Yandex GPT 3 иногда допускает ошибки, порой выдавая совершенно абсурдные ответы, что иллюстрируется примерами ниже. Другие модели AI из теста таких ответов себе не позволяли.

Итого наш рейтинг моделей при тестировании на логические задачи составил:

Модель — Результат правильных ответов в %

8 место — Yandex GPT-2 — 0%

7 место — Yandex GPT-3 - 14%

6 место — ChatGPT-3.5 — 21%

5 место — Gemini Pro — 29%

4 место — Claude Haiku-3 — 43%

3, 2 и 1 место — 71%, 79% и 86% соответственно.

Хотите узнать победителей и подробности тестирования? Добро пожаловать в наш Google-документ ссылка, где вы найдете результаты всех тестов, проведенных нами по состоянию на 31.03.2024. Знакомьтесь с ответами каждой из нейросетей, сравнивайте и делайте собственные выводы!

В заключении хотелось бы сказать, что поскольку модель появилась на рынке совсем недавно, мы ещё не успели полностью оценить её способности в генерации текстов, реальной стоимости использования, производительности. Модель была интегрирована в наш сервис всего неделю назад, и на данный момент мы не замечаем к ней высокого интереса со стороны частных пользователей. Мы предполагаем, что основными пользователями данной модели станут юридические лица, с которыми мы планируем провести совместные тесты на прикладное применение модели. Практическим опытом использования данной модели ИИ и результатами тестов мы поделимся позднее.

Переходите на нашу ИИ-арену, регистрируйтесь по ссылке и получайте 50 рублей на баланс для тестирования моделей. Проверьте наши выводы и расскажите о своих результатах в комментариях!

20 комментариев

Сергей Иванов

03.04.2024

Яндекс.ГПТ2 че-то совсем в ж*пе

Ответить

Live Evil

ЯndеX XepnR

Илья

Безумие) Claude топчик

Kliment Vikulov

Автор

Отличная нейросеть. Не такая популярная в России как ChatGPT 4, но при этом по многим параметрам превосходящая её

Serz Salich

04.04.2024

Прошло 3 мес от начала нашей переписки с разрабами Яндекс. Мы просили инструкцию для экспорта событий в Яндекс календарь.Сама суть ответа показывает уровень компетенций в этой конторе🤷

Поиск и Go у Яндекса мощные. Остальные продукты, согласен, как будто ниже уровнем.

Никита Целобанов

Подскажите, пожалуйста, Gemini использовалась версия 1.5 или просто Gemini pro?