Сравниваем ChatGPT, YangexGPT и Gigachat на цифрах. Кто же лучше знает русский язык?

Сравниваем ChatGPT, YangexGPT и Gigachat на цифрах. Кто же лучше знает русский язык?

ChatGPT 4 и 3.5 неплохо умеют говорить и думать на русском, потому что LLM обучаются на текстах из интернета, где, в том числе, присутствует русский язык. Но все-таки основной язык у них — английский, поэтому логично предположить, что российские модели, обученные с фокусом на русский язык, должны показывать результаты значительно лучше.

Сбер и Яндекс уже давно начали работать в этом направлении. Мы протестируем их модели и сравним результаты. Выясним, кто же круче, на примере IR задачи.

Задача

У нас есть задача, которая относится к классу задач классификации токена или NER. Суть её проста: извлекать из текстов судебных решений информацию об участниках - ФИО, роль участия и даты рождения.

Пример:

Сравниваем ChatGPT, YangexGPT и Gigachat на цифрах. Кто же лучше знает русский язык?

Сложность заключается в том, что тексты, написанные людьми, плохо структурированы, и простые алгоритмы не могут справиться с этой проблемой на достаточно хорошем уровне. Поэтому на помощь приходят технологии обработки естественного языка (NLP) c небольшими BERT моделями и большими языковыми моделями - LLM.

Участники

  • GPT4
  • GPT3.5 Turbo
  • GigaChat Pro
  • YandexGPT
  • RPT-BERT*

*RPT-BERT - это BERT модель, которую мы обучили исключительно для этой задачи (извлечение участников и их даты рождения) на базе sbert_large_nlu_ru и 100 тыс. синтетических примеров.

Для начала сравним размеры моделей - количество параметров. Обычно чем больше, тем лучше и модель способна справляться с большИм количеством задач, однако это увеличивает стоимость на вычислительные ресурсы или API, что может быть важным фактором в случаях, когда нужно обработать большой объем информации. Как это часто бывает для IR задач - сотни миллионов документов.

Сравниваем ChatGPT, YangexGPT и Gigachat на цифрах. Кто же лучше знает русский язык?

GPT 4 - 1 триллион

GPT 3.5 - 175 миллиардов

GigaChat Pro - 29 миллиардов

YandexGPT - 100 миллиардов

RPT-BERT - 500 миллионов

OpenAI и Яндекс не разглашают количество параметров в их моделях, поэтому для них здесь указаны общепринятые оценки из интернета.

Промпт

  • Используем промпт с несколькими примерами(Few shot prompting)
  • Запрашиваем результат в Json - это еще и покажет, насколько модели хорошо умеют генерировать Json - это важно при применении LLM для IR задач.

Пример:

Извлеки данные в формате Json согласно инструкции: Участников судебного процесса(Имена людей и компаний с ФИО и Датой рождения. При этом, не изменяй падеж и формат данных в тексте. Результаты верни в формате JSON. # Пример 1 # Документ Определением Арбитражного суда Краснодарского края от 23.08.2013 наложен арест на имущество ИП Иванова Романа Владимировича, 18.01.1972 года рождения, уроженца города Пушкина Ставропольского края, зарегистрированного по адресу: Краснодарский край, г. Геленджик, ул. Ленина, д. 77, кв. 11, за исключением имущества, на которое в соответствии с гражданским процессуальным законодательством не может быть обращено взыскание. #Результат ```json [ { "FullName": "Иванова Романа Владимировича", "BirthDate": "18.01.1972" } ] ```

Результаты

Мы вручную отобрали и разметили 500 документов разной сложности и прогнали модели через эти примеры. Для простоты оценки считали только точность (accuracy) следующим образом: документ считается обработанным успешно в случае, когда все участники извлечены правильно.

Таким образом, score на графике ниже - это отношение количества успешно обработанных документов к общему количеству документов.

Сравниваем ChatGPT, YangexGPT и Gigachat на цифрах. Кто же лучше знает русский язык?

GPT-4: 0.97

GPT-3.5: 0.96

RPT-BERT: 0.79

Gigachat-Pro: 0.72

YandexGPT: 0

Почему YandexGPT 0?

Потому что их модель отказывается выполнять данную задачу :)

Кажется, они просто поставили какой-то фильтр, который ограничивает модель в ответах на некоторые темы. Почему под запрет попадает эта тема - большой вопрос. Поддержка компании ответила лишь, что YangexGPT находится в тестовой стадии, и ничего больше.

А вот Gigachat-Pro удивила - лично я не ожидал таких результатов(0.72).

Заключение

Можно пожаловаться на то, что российские модели хуже иностранных, а можно порадоваться, что модель от Сбера показывает неплохие результаты всего лишь при 30млрд параметрах. Также можно надеяться, что Яндекс развяжет руки своей модели и мы все станем свидетелями её мощи - обязательно протестируем, как заработает 🙂

Также можно возразить, что в тесте нет LLAMA 2 и других opensource LLM - и я полностью соглашусь, их тоже стоит рассмотреть, хотя, говорят, что они значительно хуже говорят на русском.

И, конечно, этот тест не является объективной общей оценкой LLM. Это лишь оценка исключительно в рамках этой задачи.

20
27 комментариев

YandexGPT хоть на что-то вообще отвечает? Из последних моих 6 запросов она не ответила ни на один. Каждый раз "я не готова разговаривать на эту тему". На какую, непонятно. Запросы были все на разные задачи, одна вообще чисто на проверку пунктуации. Но яндекс нашел видимо какое-то слово по фильтру и вообще отказался выполнять задачу. Это самая тупая нейросетка, что я видел, пользоваться ей невозможно. Ни одна другая не отказывалась отвечать.

11
Ответить

Тоже показалось что их фильтр слишком строго настроен.

2
Ответить

Здравствуйте! Расскажите, пожалуйста, какие темы Алиса отказалась с вами обсуждать? Будет здорово, если приведёте конкретные примеры ваших запросов и ответов виртуального помощника. Ещё лучше — если получится выслать скриншоты.

Ответить

Комментарий недоступен

9
Ответить

Также можно надеяться, что Яндекс развяжет руки своей модели и мы все станем свидетелями её мощиДавно я так не смеялся

7
Ответить

Только начал читать, а статья кончилась.
Эх, думал тут будет большая интересная выборка разнообразных задач, а тут всего одна :/

5
Ответить

Надо сначала поставить Яндекс.Браузер, тогда YandexGPT будет больше нуля

3
Ответить