Workshop on Machine Translation: что нужно знать о ключевой конференции по машинному переводу

Каждый год в разных странах проходят конференции по машинному переводу. На такие мероприятия съезжаются специалисты со всего мира, чтобы обсудить актуальные темы, обменяться опытом и поговорить о тенденциях и развитии лингвистических технологий.

Одно из самых известных мероприятий по МП – Workshop on Machine Translation (WMT) – крупнейшая конференция по машинному переводу, которая проводится под эгидой Ассоциации компьютерной лингвистики (ACL).

ACL

Ассоциация компьютерной лингвистики (ACL - The Association for Computational Linguistics) – это международное сообщество, объединяющее специалистов в области компьютерной лингвистики и обработки информации на естественных языках из разных стран. Интересно, что у ACL нет постоянного главы: каждый год сообщество избирает выдающегося лингвиста, который сначала становится вице-президентом, а через год получает должность президента Ассоциации.

Участники ACL ведут активную исследовательскую деятельность, выпускают специализированный журнал – Computational Linguistics – и ежегодно собираются на тематической конференции – Workshop on Machine Translation (WMT).

WMT

Первое мероприятие состоялось в 2006 году под эгидой NAACL – североамериканского подразделения ACL. Тогда мероприятие носило название Workshop on Statistical Machine Translation, которое позднее поменяли на Workshop on Machine Translation (отсюда и аббревиатура WMT). Со временем оно превратилось в большую конференцию – Conference on Machine Translation (WMT).

К конференции участники определенным образом готовятся. Каждый год, примерно за полгода до мероприятия, организаторы размещают на сайте список практических заданий (shared tasks), связанных с машинным переводом. Разработчики систем машинного перевода выбирают любые из этих заданий и выполняют их в течение нескольких месяцев.

В 2019 году, например, среди предложенных заданий были: машинный перевод новостных текстов, перевод биомедицинских текстов, перевод на родственные языки, перевод сообщений в мессенджерах (chat translation task), автоматическое постредактирование, измерение качества машинного перевода (сравнение с эталоном), измерение качества машинного перевода (без сравнения с эталоном) и другие.

Одно из самых популярных направлений – машинный перевод новостных текстов. Его главная цель – транировка систем на релевантных параллельных данных и оценка качества перевода натренированных систем. Примерно за 4 месяца до конференции организаторы выкладывают наборы данных для тренировки (новостные тексты, тексты ООН, парламентские отчеты, стенограммы заседаний, статьи из Википедии на языке оригинала и перевода). На этих данных участники обучают свои системы машинного перевода. Также возможно использование собственных данных – правилами это не запрещается. В процессе тренировки систем участники активно общаются, обсуждают и уточняют данные.

Затем, в определенный момент, организаторы публикуют тестовый корпус текстов для перевода – участники готовят автоматический перевод этого корпуса с помощью своей системы и размещают результат на сайте организаторов в течение недели. Результаты участники должны предоставить в формате SGML.

https://towardsdatascience.com/machine-translation-compare-to-sota-6f71cb2cd784
https://towardsdatascience.com/machine-translation-compare-to-sota-6f71cb2cd784

После этого эксперты, среди которых могут быть и участники конференции, и добровольцы, сравнивают и оценивают все переводы через веб-интерфейс специальной системы для оценки переводов – Amazon Mechanichal Turk (краудсорсинговый сервис от компании Amazon). Оценка производится так: эксперт видит исходное предложение, несколько автоматических переводов и человеческий перевод исходного предложения. Задача состоит в том, чтобы ранжировать (разместить в порядке от лучшего к худшему) автоматические переводы. После этого организаторы обобщают результаты оценки по всем участникам, подводят итоги и публикуют их на своем сайте.

Языковые пары и их количество варьируются год от года, но обычно это перевод с английского на французский, испанский, немецкий и наоборот. Также ежегодно добавляются некоторые «редкие» языки – чешский, хинди. В 2013 году на WMT впервые был представлен русский язык, и сразу стал лидером по числу представленных систем. Выбор языковых пар определяется, в первую очередь, наличием параллельных текстов, необходимых для тренировки систем машинного перевода.

Помощь в предоставлении данных для тренировки систем оказывают многие крупные компании и организации, такие как Microsoft, Токийский университет, Национальный исследовательский совет Канады, Евросоюз в рамках программы по исследованиям и инновациям Horizon 2020 и другие.

Участники

В конференции регулярно принимают участие научные лаборатории при университетах во всем мире, крупные компании, которые занимаются лингвистическими разработками – от IT-гигантов вроде Microsoft, Yandex и Facebook до известных компаний, специализирующихся на разработке коммерческих систем для машинного перевода – Systran, PROMT, Tilde. Кроме того, организаторы берут для сравнения переводы с известных онлайн-сервисов.

Например, в 2011 году переводы с сервиса компании PROMT (online-translator.com) с английского на русский и немецкий были взяты для сравнения и получили самые высокие оценки за качество перевода. С 2013 года PROMT участвует не с переводами с онлайн-сервиса, а выполняет задания по переводу новостных текстов, тренируя систему на предложенных и собственных параллельных данных. Не раз за эти годы переводы PROMT с английского на русский получали самые высокие баллы.

Workshop on Machine Translation: что нужно знать о ключевой конференции по машинному переводу

Другая компания из России – Yandex – также принимает активное участие в WMT. Компания не только выполняет задание по переводу новостных текстов с разных языков, но и предоставляет параллельные данные для тренировки МП-систем для перевода с русского на английский и наоборот.

Workshop on Machine Translation: что нужно знать о ключевой конференции по машинному переводу

Новостная задача поддерживается Microsoft, NTT и Токийским университетом, Tilde, Национальным исследовательским советом Канады, Yandex и программой Европейского союза по исследованиям и инновациям Horizon 2020 в рамках грантового соглашения № 825299 (Gourmet).

Нейронный машинный перевод на WMT

С 2006 по 2015 год участники WMT представляли переводы, выполненные с помощью разных технологий – от RBMT (Rule-based Machine Translation) до статистических (SMT, Statistical Machine Translation). С 2016 года, когда в мире начался бум нейронных сетей, подавляющее большинство участников конференции постепенно стало переходить на технологии, основанные на машинном обучении – Neural Machine Translation (NMT). Сегодня на WMT сравниваются только NMT-переводы.

Нейросетевые технологии позволяют разработчикам добиваться более высокого качества перевода, чем переводы, полученные с помощью других технологий. Современный машинный перевод не имеет «машинного акцента» и больше похож на перевод, выполненный человеком. Как отмечают специалисты, год от года качество стремительно растет.

На WMT, прошедшем в 2019 году во Флоренции, участники пришли к выводу, что традиционный метод оценки качества машинного перевода – сравнение по предложениям –не релевантен в новых условиях: эксперты в некоторых случаях оценивали машинный перевод выше, чем перевод, выполненного человеком. Это заставило экспертов задуматься о пересмотре системы оценки и о том, что нужно переходить к сравнению результатов перевода на уровне документа.

Значимость конференции

Конференция WMT играет ключевую роль для всей отрасли. Как показывает график, основанный на результатах запроса machine translation в Google Scholar, это самая важная конференция по машинному переводу.

https://towardsdatascience.com/machine-translation-compare-to-sota-6f71cb2cd784
https://towardsdatascience.com/machine-translation-compare-to-sota-6f71cb2cd784

На сайте ACL, по итогам ежегодных конференций, размещаются научные статьи, подготовленные участниками мероприятия.

В 2020 году конференция по машинному переводу WMT состоится в ноябре – ее, как и большинство других масштабных мероприятий этого года, проведут в онлайн-формате.

WMT – самое масштабное мероприятие по машинному переводу в мире. Конференция наглядно демонстрирует, как развиваются технологии перевода, насколько результат МП близок к профессиональному переводу, при каких условиях системы успешно обучаются на данных, какие возможности современные технологии дают разработчикам. Эти исследования и практические результаты открывают все больше сфер, где технологии могут заменить человека и обеспечить быстрый и качественный перевод контента любых объемов.

11
Начать дискуссию