Сравниваем ChatGPT, YangexGPT и Gigachat на цифрах. Кто же лучше знает русский язык?

ChatGPT 4 и 3.5 неплохо умеют говорить и думать на русском, потому что LLM обучаются на текстах из интернета, где, в том числе, присутствует русский язык. Но все-таки основной язык у них — английский, поэтому логично предположить, что российские модели, обученные с фокусом на русский язык, должны показывать результаты значительно лучше.

Сравниваем ChatGPT, YangexGPT и Gigachat на цифрах. Кто же лучше знает русский язык?
2020

Но все-таки основной язык у них - английский

Насколько я знаю, GPT не делает трансляцию на англ язык и обратно, это мультиязыковая модель.

Даже были исследования, которые показывают что она мастерски владеет даже очень редкими языками с крайне малым доступным объемом текстов.

Что собственно ваш тест и подтвердил

2
Ответить

Разница в токенизации, в GPT4 используется BPE tokenizer, обученный на данных в основном на Английском языке. Как результат, один токен на Английском это целое слово или значимый кусок слова а на русском языке это всегда 1 буква. Получается 1000 слов на Английском для модели это ~1300 токенов, а на русском ~6000 токенов.

https://platform.openai.com/tokenizer вот тут можно поиграться и посмотреть как gpt видит текст.

2
Ответить

Все верно, она понимает его "нативно"

Ответить