ChatGPT 4 и 3.5 неплохо умеют говорить и думать на русском, потому что LLM обучаются на текстах из интернета, где, в том числе, присутствует русский язык. Но все-таки основной язык у них — английский, поэтому логично предположить, что российские модели, обученные с фокусом на русский язык, должны показывать результаты значительно лучше.
Но все-таки основной язык у них - английский
Насколько я знаю, GPT не делает трансляцию на англ язык и обратно, это мультиязыковая модель.
Даже были исследования, которые показывают что она мастерски владеет даже очень редкими языками с крайне малым доступным объемом текстов.
Что собственно ваш тест и подтвердил
Разница в токенизации, в GPT4 используется BPE tokenizer, обученный на данных в основном на Английском языке. Как результат, один токен на Английском это целое слово или значимый кусок слова а на русском языке это всегда 1 буква. Получается 1000 слов на Английском для модели это ~1300 токенов, а на русском ~6000 токенов.
https://platform.openai.com/tokenizer вот тут можно поиграться и посмотреть как gpt видит текст.
Все верно, она понимает его "нативно"