Грязные данные, вымышленные языки и синтаксические особенности

Разработчик из команды машинного перевода «Яндекса» Антон Дворкович о том, какие вызовы стоят перед машинным переводом будущего.

Найти в сети быстрый и бесплатный онлайн-переводчик сегодня проще простого, но мало кто задумывается, что создать такой сервис может себе позволить далеко не каждая компания. Во всем мире таких компаний совсем немного: можно выделить Google, Microsoft, Baidu и российский «Яндекс».

Все они изначально имеют в своём портфеле поисковый сервис, а значит обладают доступом к огромным массивам данных, на которых и могут обучать свой переводчик. Однако данные — это лишь половина дела. Важно научить переводчик работать на них, и здесь в игру вступает машинное обучение, которое невозможно представить без серьезной научной основы.

Работа над исследованиями, новыми решениями и их последующим внедрением в сервисы ведется в крупнейших ИТ-компаниях каждый день. Благодаря этому качество машинного перевода заметно растёт год от года, и есть все предпосылки ожидать его дальнейшего улучшения.

С научной точки зрения машинное обучение — одно из самых интересных направлений прикладной математики. Но даже среди исследований на «горячие» темы вроде беспилотных автомобилей, компьютерного зрения и всевозможных способов применения нейронных сетей работы, посвященные машинному переводу, стоят особняком.

Например, одна из самых цитируемых статей последнего времени в области машинного обучения посвящена именно машинному переводу и была написана бывшим стажером «Яндекса» Дмитрием Богдановым.

Это очень конкурентная отрасль и самый настоящий «полигон» для высоких технологий, причем речь идет не только об исправлении существующих ошибок и постепенном улучшении качества, но и о концепции машинного перевода в более широком смысле. Посмотрим, какие вызовы стоят перед разработчиками уже сегодня и как их можно решить.

Для машинного переводчика достаточно просто переводить с английского на французский и обратно. Результаты на этой языковой паре можно назвать близкими к человеческому уровню перевода: это языки одной семьи, в интернете хватает текстов, которые есть на обоих этих языках, да и проблем с вводом данных в поле переводчика не возникает.

Но давайте представим себя в Китае, где совсем другой тип письменности, который обычному туристу практически невозможно воспроизвести. Как тогда искать перевод нужных нам фраз? Одними подсказками, которые машинный переводчик обычно предлагает при вводе иностранного слова, тут явно не обойтись.

Для решения этой проблемы придумали несколько способов. Например, фото- и голосовой переводы. И оба они ставят перед разработчиками переводчика целый комплекс научных задач. В случае с фотопереводом, когда мы фотографируем, например, незнакомую вывеску и отправляем её в переводчик, распознать текст на изображении нам помогают технологии компьютерного зрения.

Во многом благодаря нейронным сетям качество компьютерного зрения сейчас стало очень высоким, и переводом текста с фотографии сегодня уже мало кого удивишь.

Сложнее дела обстоят с распознаванием голоса, выполнить которое также помогают нейронные сети. В таком случае недостаточно просто вывести на экран «услышанный» программой текст — люди ожидают, что переводчик сразу же озвучит его на нужном языке.

Проблема заключается в том, что для голосового перевода необходимо получить приемлемое качество в режиме реального времени или хотя бы с минимальной задержкой. Если вы посмотрите на ту же Siri, она выводит на экран сказанные вами слова не сразу. То же самое будет происходить и с голосовым машинным переводчиком, появись он сегодня, что недостаточно быстро для реального общения.

Но это полбеды, ведь существует и проблема качества перевода. Мы готовы простить машинному переводчику какие-то погрешности в переводе текстов, когда смотрим на них в окне браузера, но если попробовать озвучить эти тексты без предварительной корректировки, мы рискуем получить на выходе прекрасно произнесенный, но не всегда понятный набор слов.

Ситуация усложняется и тем, что у разговорной речи есть своя специфика — мы говорим не совсем так, как пишем. Проблему можно было бы решить, если бы мы могли изначально построить машинный переводчик на основе аудиоданных. Но переведенных и озвученных параллельных текстов на разных языках банально меньше, чем переведенных и напечатанных, на которых строится текстовый машинный перевод. Так что качество такого переводчика было бы неудовлетворительным.

Поэтому сейчас мы вынуждены сначала распознавать сказанное, после преобразовывать это в текст, переводить на нужный язык и лишь потом озвучивать. Но есть и хорошие новости: все описанные проблемы вполне решаемы, поэтому в ближайшем будущем мы наверняка увидим долгожданный качественный голосовой перевод в режиме реального времени.

Поскольку в основе обучения машинного перевода лежит анализ одинаковых текстов, переведённых на разные языки, это порой приводит к интересным казусам. Например, машинный переводчик может решить перевести слово «доллар» как «рубль».

Это связано с тем, что некоторые из текстов, на которых обучается машинный перевод, — это, например, страницы с описаниями товаров на разных языках в интернет-магазинах. Такие страницы часто являются почти полными переводами друг друга, за исключением того, что цены на английских страницах приводятся в долларах, а на русских — в рублях.

И алгоритм запоминает эту связь, ошибочно считая её переводом. В общем случае это называется проблемой «грязных» данных, и в машинном переводе она считается достаточно серьезной. Не существует универсального способа ее решить, но чаще всего исправлять такие ошибки помогают сами пользователи — обратная связь вообще очень важна для машинного переводчика.

Например, недавно мы заметили, что на нашем сервисе фраза «тю-тю» переводилась как «bye-bye». Углубившись в проблему, мы нашли ее причину: всему виной оказались сайты когда-то давно переведенные не очень качественным машинным переводчиком, которые до сих пор индексируются поисковиком.

Судя по всему, с такой же проблемой столкнулся и Google: в их переводчике эта ошибка была исправлена с помощью пользователей, о чем можно судить по галочке напротив перевода.

Еще одна проблема «грязных данных» — частично-параллельные предложения, они же полудубликаты. Анализируя большое количество документов, машинный переводчик выделяет полностью параллельные тексты и на них выстраивает перевод. Очень часто в такие тексты попадают документы, которые вроде бы похожи между собой, но не до конца.

Это могут быть, например, описания отелей — они все строятся по шаблону, но отличаются в деталях. Алгоритм ошибочно принимает их как полностью параллельные и выучивает. Борьба с такими полудубликатами ведется в машинном переводе каждый день.

Многозначность слов — еще одна серьезная проблема, с которой сталкивается машинный перевод. Например, «fly» может переводиться с английского и как «летать», и как «муха». Здесь существует несколько вариантов решения. Самый простой — закупать словари у компаний, которые ими владеют, и использовать их для корректировки машинного перевода.

Такие словари есть, например, у ABBYY или Оксфорда. Покупка лицензии может влететь в копеечку, но так вынуждены поступать почти все компании, занимающиеся машинным переводом. В «Яндексе» решили пойти другим путем и разработали собственные машинные словари.

Алгоритмы на службе машинных словарей извлекают из параллельных текстов все варианты переводов для слов и автоматически организуют их в богатую словарную статью с указанием примеров использования и транскрипцией, а для некоторых языков — с примерами антонимов и синонимов.

Это нетривиальная задача как минимум потому, что от машинного словаря, в отличие от простого перевода, ожидают очень высокого качества, а с технологической точки зрения это гремучая смесь машинного обучения и лингвистики.

Помимо экономии средств на лицензиях, у машинных словарей есть и другое важное преимущество: они очень быстро «выучивают» новые слова в языке, на добавление которых в традиционный словарь уходят месяцы и даже годы.

В мире насчитывается огромное количество языков, и, конечно же, все они отличаются. Например, порядок слов в предложении для некоторой пары языков может быть совсем разным, и машина должна уметь правильно переставлять слова при переводе, чтобы на выходе не получилась речь магистра Йоды.

Конечно, при желании и её можно понять, но это сложно назвать качественным переводом, особенно если мы хотим жить в будущем с голосовым переводом в режиме реального времени. Возьмем, к примеру, турецкий язык и правильный перевод с него на английский:

1) Bize (2) katılsan (3) harika (4) olacaktı → (4) It would be (3) great (2) if you join (1) us.

Как мы видим, порядок слов в переводе получился совсем другой, и соблюсти его для машинного переводчика может оказаться той еще задачкой.

Схема работы машинного переводчика, который с помощью турецко-английского параллельного корпуса учится переводить английскую фразу «Я увидел кошку» на узбекский

Сложно переводить и своеобразные или уникальные слова, которые встречаются в разных языках. Например, в русском языке есть глаголы, начинающиеся с «до-», которые значат «делать что-либо в такой степени, что это привело к плохим последствиям». Возьмем пример из Национального корпуса русского языка.

Отрывок из «Фауста» Тургенева на языке оригинала выглядит так:

А все-таки мне кажется, что, несмотря на весь мой жизненный опыт, есть еще что-то такое на свете, друг Горацио, чего я не испытал, и это «что-то» чуть ли не самое важное. Эх, до чего я дописался! Прощай!

А вот его перевод на немецкий:

Trotz all meiner Lebenserfahrung scheint mir jedoch, Freund Horatio, es gebe noch etwas in der Welt, was ich nicht erfahren, und dieses Etwas möchte vielleicht das Wichtigste sein. Doch wo bin ich hingeraten? Lebe wohl!

По-немецки hingeraten означает буквально «Эх, где я очутился»; То, что речь идет о написании послания, понятно только по контексту.

В английском языке, например, есть сложные выражения вроде «danced into» — что примерно значит «вошёл танцуя». А во французском есть такое явление, как двойное отрицание: «он не придет» — «il ne viendra pas».

Для машинных переводчиков подобрать правильный перевод в таких примерах очень и очень сложно — сейчас они с переменным успехом переводят отдельные случаи (например, выражение «дописаться» не вызывает особой сложности), но работы здесь предстоит ещё много.

Отдельная проблема — это нехватка данных, ведь для любого перевода нужно построить большой параллельный корпус на основе уже переведенных текстов. Чаще всего разработчики сталкиваются с такой проблемой, когда стоит задача перевода с какого-нибудь редкого языка.

Чтобы решить эту проблему, в «Яндексе» научились применять знания о влиянии языков друг на друга. Например, на трёх Карибских островах (Аруба, Бонэйр и Кюрасао) разговаривают на языке папьяменто, который представляет из себя смесь испанского, португальского и английского языков с приправой из различных африканских и еврейских диалектов, завезённых сюда в период Великих географических открытий.

При переводе «Яндекс.Переводчик» понимает, какие слова и откуда были заимствованы, что позволяет использовать модели перевода не только папьяменто, но и «соседних» языков. Аналогично и для других языков — например, идиш во многом похож на немецкий язык, а редкий горномарийский язык развивался под влиянием похожего, но более популярного лугового марийского и русского языков.

Выходит, если понять, из чего состоит язык, и правильно определить нужные кусочки такого языкового конструктора, можно научиться переводить даже с вымышленных языков, в которых не так много описанных автором слов, но мы при этом можем предположить, как новые слова могли бы выглядеть. По этой же логике «Яндекс» в прошлом году научил свой переводчик работать с эльфийским языком.

Хотя машинный перевод отлично помогает понять смысл текста на незнакомом языке или перевести простую фразу, с литературным переводом справиться он пока не может. Однако даже при таком сценарии машинные переводчики выступают хорошим подспорьем переводчику-человеку. Ведь гораздо легче исправлять неточности в готовом, переведенном машиной тексте, чем переводить этот текст полностью с нуля.

Именно таким образом работают профессиональные платформы автоматизированного перевода, например, MateCat. Кстати, данные об исправлениях, которые генерируют живые переводчики, бесценны для машинных и играют большую роль в их улучшении.

С помощью этих данных, а также пользовательской обратной связи и неустанной работы исследователей, внедряющих новые технологии, происходит постепенное улучшение машинного перевода в целом. Это не быстрый процесс, но сегодня мы как никогда близки к будущему, где в общении между людьми станет ещё на одну преграду меньше.

#Будущее

Грязные данные, вымышленные языки и синтаксические особенности

Как печатать на китайском

«Грязные» данные

«Драгоценные» слова

Такие разные языки

«Как это будет на папьяменто?»

Большие ожидания