Грязные данные, вымышленные языки и синтаксические особенности

Разработчик из команды машинного перевода «Яндекса» Антон Дворкович о том, какие вызовы стоят перед машинным переводом будущего.

Грязные данные, вымышленные языки и синтаксические особенности
9K9K открытий

Антон, всегда интересовал вопрос - у кого все-таки качество перевода выше, и как оно измеряется? Очевидно, гугл получает намного больше пользовательского фидбека, чем яндекс - следует ли из этого, что перевод гугл транслейта лучше?
Надеюсь, корпоративная этика при ответе на мой вопрос будет отодвинута на второй план)

Ответить

Влад, спасибо за вопрос!
Качество перевода измеряется с помощью сравнения переводов тестовых предложений (их обычно несколько тысяч), сделанных машиной, с эталонными, сделанными профессиональными переводчиками. При этом чаще всего используется автоматическая метрика BLEU (https://en.wikipedia.org/wiki/BLEU). Для более точной оценки иногда используют ручные метрики Adequacy & Fluency (clck.ru/BBWhi).
Что касается сравнения с Google Translate - тут всё зависит от направления перевода, о котором мы говорим: в каких-то направлениях мы оказываемся хуже, в каких-то лучше; к тому же, это достаточно быстро меняется со временем, так как над качеством постоянно ведётся работа и у Google, и у нас. Но могу сказать, что в целом для большинства направлений, включающих русский язык, большую часть времени мы впереди :)
А пользовательский фидбек хоть и помогает находить и решать локальные проблемы в переводе, но всё же главными факторами для построения качественного машинного переводчика являются скорее объёмы обучающих данных и алгоритмы обучения.

Ответить

QA в Яндексе и QA в Гугле - это как взвод и армия.
Новые релизы гуглотранслейта реально намного лучше.

Ответить

Отличная статья, не важно какой жопорукости у какого поисковика сейчас переводчик :) Все-равно прийдет тот день, когда мы будем запускать себе вавилонскую рыбку в ухо, как в у Дугласа Адамса в "Автостопом по галактике" и будем мгновенно понимать все языки вселенной ))))

Ответить

Интересно, почему эсперанто не приживается? Может язык это не просто слова и грамматика, а нечто большее? Как будут переводить с "олбанского"?

Думаю, что машинный перевод будет развиваться, но сфера его использования будет ограничена. И поговорить "за жизнь" - это ведь не про погоду и детей спросить...

Ответить
Комментарий удалён модератором
Комментарий удалён модератором

Забавно!
Сто раз видел цитаты той публикации, но вообще не пришло в голову, что "Dzmitry Bahdanau" это "Дмитрий Богданов", тем более бывший стажер Яндекса.

Ответить

Он этим летом был стажером в брейне в mtv

Ответить

Просто вы не беларус.

Ответить

Вы упомянули именно MateCat. Интересно почему. Я решил что это что-то стоящее. К сожалению сразу наткнулся на пару багов и оставил попытки что-то сделать. Кто может посоветовать хороший онлайн CAT? Желательно чтобы markdown понимал.

Ответить

Антон, а есть ли у Яндекса планы сделать возможность тренировки кастомных нейронных движков МТ на собственных корпусах?

Ответить

Павел, немного не понял вопрос: имеется в виду тренировать наши нейронные движки на чьих-нибудь параллельных корпусах, или использовать наши параллельные корпуса для тренировки чьих-нибудь нейронных движков?
Если первое - то это интересная тема (по сути - адаптация перевода под домен, интересующий владельца корпуса), но прямо сейчас мы таким не занимаемся.
Если второе - то таких планов у нас нет: наши параллельные корпуса - наше богатство :)

Ответить