RU → EN или RU → TR: с какими языками лучше всего справляется нейросеть?

Разбираемся на примере перевода руководства пользователя iPhone.

Специалисты компании «ТрансЛинк» решили провести эксперимент, чтобы узнать, с каким языком нейронный машинный перевод справится лучше и почему.

«ТрансЛинк» уже несколько лет изучает и применяет технологии машинного перевода. В этом году компания также запустила новый продукт TransМасhine — сервис на основе технологии Yandex Translate. С помощью облачного сервиса можно интегрировать алгоритмы Яндекс.Переводчика в приложения или веб-проекты для конечных пользователей.

RU → EN или RU → TR: с какими языками лучше всего справляется нейросеть?

Синтетический vs аналитический

В языках мира существуют две основных группы способов выражения грамматических значений – синтетические и аналитические. Аналитические языки — те, где в предложении есть фиксированный порядок слов. В синтетических же, грамматические значения выражаются в пределах самого слова, поэтому допускается перестановка слов в предложении.

Например, в английском языке, считающемся аналитическим, фраза I love you может быть правильно воспринята только при такой последовательности слов. При изменении последовательности страдает смысл и, зачастую, грамматика. Так, нельзя сказать Love you I или I you love.

В то же время в русском языке, считающемся синтетическим, фраза «Я тебя люблю» может достаточно легко трансформироваться в «Тебя люблю я», «Тебя я люблю» и так далее. Это происходит за счёт того, что грамматические конструкции находятся внутри самих слов, что позволяет легко идентифицировать их значение вне зависимости от положения в предложении.

Оценка по коэффициенту

Специалисты решили проверить, есть ли связь между качеством перевода с помощью нейронного машинного перевода (NMT) внутри группы синтетических или аналитических языков, с синтетических языков на аналитические и наоборот.

В качестве материала для исследования было взято руководство пользователя iPhone для программного обеспечения iOS-8 на исследуемых языках. Эта тема представляет наименьшие трудности для алгоритмов NMT, ведь предложения в инструкциях обычно просты грамматически и не отличаются сложной лексикой.

Объём текста для каждой языковой пары оказался около 40 страниц. Главный вопрос был – насколько изначально читаемым и схожим будет материал на выходе.

В качестве синтетических языков были взяты:

  • Русский
  • Турецкий

В качестве аналитических:

  • Английский
  • Китайский (считается изолирующим, что по сути значит ещё меньшее количество синтетических конструкций)

Качество перевода оценивалось по коэффициенту EF, выработанному по соотношению ошибок лёгкой (Ee), средней (Em) и высокой (Eh) степени тяжести относительно количества переведённых слов (NW).

Формула подсчёта выглядела следующим образом:

RU → EN или RU → TR: с какими языками лучше всего справляется нейросеть?

Результаты исследований

Меньше всего ошибок нейронный машинный перевод совершил в паре китайский – английский. Коэффициент составил 0,12. Также высокое качество перевода оказалось у пары русский – английский (0,57).

Исходя из результатов исследования, явных различий по качеству переводов внутри синтетических или аналитических языков выявлено не было. Результаты намного больше демонстрируют качество подготовки корпуса для движков, нежели различия между качественностью переводов между различными языковыми группами. На данный момент, NMT хуже всего готов к работе с синтетическим турецким языком.

Естественно, результаты не могут считаться однозначно объективными. Так, на них безусловно влияет качество корпусов в каждом отдельно взятом движке, субъективность оценки лингвистами и особенности подготовки.

Подписывайтесь на блог Яндекс.Облака, чтобы узнавать еще больше новостей и историй об IT и бизнесе.

Другие истории партнеров и клиентов, которые активно читают наши подписчики:

44
2 комментария

 с каким языком нейронный машинный перевод справиться лучше и почему.исправьте очепятку

1
Ответить

Исправили, спасибо! 

1
Ответить