Сравниваем ChatGPT, YangexGPT и Gigachat на цифрах. Кто же лучше знает русский язык?

ChatGPT 4 и 3.5 неплохо умеют говорить и думать на русском, потому что LLM обучаются на текстах из интернета, где, в том числе, присутствует русский язык. Но все-таки основной язык у них — английский, поэтому логично предположить, что российские модели, обученные с фокусом на русский язык, должны показывать результаты значительно лучше.

Сбер и Яндекс уже давно начали работать в этом направлении. Мы протестируем их модели и сравним результаты. Выясним, кто же круче, на примере IR задачи.

У нас есть задача, которая относится к классу задач классификации токена или NER. Суть её проста: извлекать из текстов судебных решений информацию об участниках - ФИО, роль участия и даты рождения.

Пример:

Сложность заключается в том, что тексты, написанные людьми, плохо структурированы, и простые алгоритмы не могут справиться с этой проблемой на достаточно хорошем уровне. Поэтому на помощь приходят технологии обработки естественного языка (NLP) c небольшими BERT моделями и большими языковыми моделями - LLM.

GPT4
GPT3.5 Turbo
GigaChat Pro
YandexGPT
RPT-BERT*

*RPT-BERT - это BERT модель, которую мы обучили исключительно для этой задачи (извлечение участников и их даты рождения) на базе sbert_large_nlu_ru и 100 тыс. синтетических примеров.

Для начала сравним размеры моделей - количество параметров. Обычно чем больше, тем лучше и модель способна справляться с большИм количеством задач, однако это увеличивает стоимость на вычислительные ресурсы или API, что может быть важным фактором в случаях, когда нужно обработать большой объем информации. Как это часто бывает для IR задач - сотни миллионов документов.

GPT 4 - 1 триллион

GPT 3.5 - 175 миллиардов

GigaChat Pro - 29 миллиардов

YandexGPT - 100 миллиардов

RPT-BERT - 500 миллионов

OpenAI и Яндекс не разглашают количество параметров в их моделях, поэтому для них здесь указаны общепринятые оценки из интернета.

Используем промпт с несколькими примерами(Few shot prompting)
Запрашиваем результат в Json - это еще и покажет, насколько модели хорошо умеют генерировать Json - это важно при применении LLM для IR задач.

Пример:

Извлеки данные в формате Json согласно инструкции: Участников судебного процесса(Имена людей и компаний с ФИО и Датой рождения. При этом, не изменяй падеж и формат данных в тексте. Результаты верни в формате JSON. # Пример 1 # Документ Определением Арбитражного суда Краснодарского края от 23.08.2013 наложен арест на имущество ИП Иванова Романа Владимировича, 18.01.1972 года рождения, уроженца города Пушкина Ставропольского края, зарегистрированного по адресу: Краснодарский край, г. Геленджик, ул. Ленина, д. 77, кв. 11, за исключением имущества, на которое в соответствии с гражданским процессуальным законодательством не может быть обращено взыскание. #Результат ```json [ { "FullName": "Иванова Романа Владимировича", "BirthDate": "18.01.1972" } ] ```

Мы вручную отобрали и разметили 500 документов разной сложности и прогнали модели через эти примеры. Для простоты оценки считали только точность (accuracy) следующим образом: документ считается обработанным успешно в случае, когда все участники извлечены правильно.

Таким образом, score на графике ниже - это отношение количества успешно обработанных документов к общему количеству документов.

GPT-4: 0.97

GPT-3.5: 0.96

RPT-BERT: 0.79

Gigachat-Pro: 0.72

YandexGPT: 0

Почему YandexGPT 0?

Потому что их модель отказывается выполнять данную задачу :)

Кажется, они просто поставили какой-то фильтр, который ограничивает модель в ответах на некоторые темы. Почему под запрет попадает эта тема - большой вопрос. Поддержка компании ответила лишь, что YangexGPT находится в тестовой стадии, и ничего больше.

А вот Gigachat-Pro удивила - лично я не ожидал таких результатов(0.72).

Можно пожаловаться на то, что российские модели хуже иностранных, а можно порадоваться, что модель от Сбера показывает неплохие результаты всего лишь при 30млрд параметрах. Также можно надеяться, что Яндекс развяжет руки своей модели и мы все станем свидетелями её мощи - обязательно протестируем, как заработает 🙂

Также можно возразить, что в тесте нет LLAMA 2 и других opensource LLM - и я полностью соглашусь, их тоже стоит рассмотреть, хотя, говорят, что они значительно хуже говорят на русском.

И, конечно, этот тест не является объективной общей оценкой LLM. Это лишь оценка исключительно в рамках этой задачи.

27 комментариев

NorthSable

18 февр

YandexGPT хоть на что-то вообще отвечает? Из последних моих 6 запросов она не ответила ни на один. Каждый раз "я не готова разговаривать на эту тему". На какую, непонятно. Запросы были все на разные задачи, одна вообще чисто на проверку пунктуации. Но яндекс нашел видимо какое-то слово по фильтру и вообще отказался выполнять задачу. Это самая тупая нейросетка, что я видел, пользоваться ей невозможно. Ни одна другая не отказывалась отвечать.

Ответить

Aidar Musin

Автор

Тоже показалось что их фильтр слишком строго настроен.

Yandex Support

Здравствуйте! Расскажите, пожалуйста, какие темы Алиса отказалась с вами обсуждать? Будет здорово, если приведёте конкретные примеры ваших запросов и ответов виртуального помощника. Ещё лучше — если получится выслать скриншоты.