Он этим летом был стажером в брейне в mtv

24.05.2017

Грязные данные, вымышленные языки и синтаксические особенности

Разработчик из команды машинного перевода «Яндекса» Антон Дворкович о том, какие вызовы стоят перед машинным переводом будущего.

1313

Влад Ермаков

24.05.2017

Антон, всегда интересовал вопрос - у кого все-таки качество перевода выше, и как оно измеряется? Очевидно, гугл получает намного больше пользовательского фидбека, чем яндекс - следует ли из этого, что перевод гугл транслейта лучше?
Надеюсь, корпоративная этика при ответе на мой вопрос будет отодвинута на второй план)

Ответить

Anton Dvorkovich

25.05.2017

Влад, спасибо за вопрос!
Качество перевода измеряется с помощью сравнения переводов тестовых предложений (их обычно несколько тысяч), сделанных машиной, с эталонными, сделанными профессиональными переводчиками. При этом чаще всего используется автоматическая метрика BLEU (https://en.wikipedia.org/wiki/BLEU). Для более точной оценки иногда используют ручные метрики Adequacy & Fluency (clck.ru/BBWhi).
Что касается сравнения с Google Translate - тут всё зависит от направления перевода, о котором мы говорим: в каких-то направлениях мы оказываемся хуже, в каких-то лучше; к тому же, это достаточно быстро меняется со временем, так как над качеством постоянно ведётся работа и у Google, и у нас. Но могу сказать, что в целом для большинства направлений, включающих русский язык, большую часть времени мы впереди :)
А пользовательский фидбек хоть и помогает находить и решать локальные проблемы в переводе, но всё же главными факторами для построения качественного машинного переводчика являются скорее объёмы обучающих данных и алгоритмы обучения.

Ответить

Vsevolod Alexeev

25.05.2017

QA в Яндексе и QA в Гугле - это как взвод и армия.
Новые релизы гуглотранслейта реально намного лучше.

Ответить

Виктор Кривенко

24.05.2017

Отличная статья, не важно какой жопорукости у какого поисковика сейчас переводчик :) Все-равно прийдет тот день, когда мы будем запускать себе вавилонскую рыбку в ухо, как в у Дугласа Адамса в "Автостопом по галактике" и будем мгновенно понимать все языки вселенной ))))

Ответить

Alexey Bolshov

25.05.2017

Интересно, почему эсперанто не приживается? Может язык это не просто слова и грамматика, а нечто большее? Как будут переводить с "олбанского"?

Думаю, что машинный перевод будет развиваться, но сфера его использования будет ограничена. И поговорить "за жизнь" - это ведь не про погоду и детей спросить...

Ответить

Комментарий удалён модератором

Ivan Bogatyy

25.05.2017

Забавно!
Сто раз видел цитаты той публикации, но вообще не пришло в голову, что "Dzmitry Bahdanau" это "Дмитрий Богданов", тем более бывший стажер Яндекса.

Ответить

Lev Feofanov

29.05.2017

Он этим летом был стажером в брейне в mtv

Ответить

25.05.2017

Просто вы не беларус.

Ответить

Andrei Horbach

25.05.2017

Вы упомянули именно MateCat. Интересно почему. Я решил что это что-то стоящее. К сожалению сразу наткнулся на пару багов и оставил попытки что-то сделать. Кто может посоветовать хороший онлайн CAT? Желательно чтобы markdown понимал.

Ответить

Pavel Doronin

26.05.2017

Антон, а есть ли у Яндекса планы сделать возможность тренировки кастомных нейронных движков МТ на собственных корпусах?

Ответить

Anton Dvorkovich

26.05.2017

Павел, немного не понял вопрос: имеется в виду тренировать наши нейронные движки на чьих-нибудь параллельных корпусах, или использовать наши параллельные корпуса для тренировки чьих-нибудь нейронных движков?
Если первое - то это интересная тема (по сути - адаптация перевода под домен, интересующий владельца корпуса), но прямо сейчас мы таким не занимаемся.
Если второе - то таких планов у нас нет: наши параллельные корпуса - наше богатство :)

Ответить