Антон, всегда интересовал вопрос - у кого все-таки качество перевода выше, и как оно измеряется? Очевидно, гугл получает намного больше пользовательского фидбека, чем яндекс - следует ли из этого, что перевод гугл транслейта лучше? Надеюсь, корпоративная этика при ответе на мой вопрос будет отодвинута на второй план)
Влад, спасибо за вопрос! Качество перевода измеряется с помощью сравнения переводов тестовых предложений (их обычно несколько тысяч), сделанных машиной, с эталонными, сделанными профессиональными переводчиками. При этом чаще всего используется автоматическая метрика BLEU (https://en.wikipedia.org/wiki/BLEU). Для более точной оценки иногда используют ручные метрики Adequacy & Fluency (clck.ru/BBWhi). Что касается сравнения с Google Translate - тут всё зависит от направления перевода, о котором мы говорим: в каких-то направлениях мы оказываемся хуже, в каких-то лучше; к тому же, это достаточно быстро меняется со временем, так как над качеством постоянно ведётся работа и у Google, и у нас. Но могу сказать, что в целом для большинства направлений, включающих русский язык, большую часть времени мы впереди :) А пользовательский фидбек хоть и помогает находить и решать локальные проблемы в переводе, но всё же главными факторами для построения качественного машинного переводчика являются скорее объёмы обучающих данных и алгоритмы обучения.
Отличная статья, не важно какой жопорукости у какого поисковика сейчас переводчик :) Все-равно прийдет тот день, когда мы будем запускать себе вавилонскую рыбку в ухо, как в у Дугласа Адамса в "Автостопом по галактике" и будем мгновенно понимать все языки вселенной ))))
Интересно, почему эсперанто не приживается? Может язык это не просто слова и грамматика, а нечто большее? Как будут переводить с "олбанского"?
Думаю, что машинный перевод будет развиваться, но сфера его использования будет ограничена. И поговорить "за жизнь" - это ведь не про погоду и детей спросить...
Забавно! Сто раз видел цитаты той публикации, но вообще не пришло в голову, что "Dzmitry Bahdanau" это "Дмитрий Богданов", тем более бывший стажер Яндекса.
Вы упомянули именно MateCat. Интересно почему. Я решил что это что-то стоящее. К сожалению сразу наткнулся на пару багов и оставил попытки что-то сделать. Кто может посоветовать хороший онлайн CAT? Желательно чтобы markdown понимал.
Павел, немного не понял вопрос: имеется в виду тренировать наши нейронные движки на чьих-нибудь параллельных корпусах, или использовать наши параллельные корпуса для тренировки чьих-нибудь нейронных движков? Если первое - то это интересная тема (по сути - адаптация перевода под домен, интересующий владельца корпуса), но прямо сейчас мы таким не занимаемся. Если второе - то таких планов у нас нет: наши параллельные корпуса - наше богатство :)
Антон, всегда интересовал вопрос - у кого все-таки качество перевода выше, и как оно измеряется? Очевидно, гугл получает намного больше пользовательского фидбека, чем яндекс - следует ли из этого, что перевод гугл транслейта лучше?
Надеюсь, корпоративная этика при ответе на мой вопрос будет отодвинута на второй план)
Влад, спасибо за вопрос!
Качество перевода измеряется с помощью сравнения переводов тестовых предложений (их обычно несколько тысяч), сделанных машиной, с эталонными, сделанными профессиональными переводчиками. При этом чаще всего используется автоматическая метрика BLEU (https://en.wikipedia.org/wiki/BLEU). Для более точной оценки иногда используют ручные метрики Adequacy & Fluency (clck.ru/BBWhi).
Что касается сравнения с Google Translate - тут всё зависит от направления перевода, о котором мы говорим: в каких-то направлениях мы оказываемся хуже, в каких-то лучше; к тому же, это достаточно быстро меняется со временем, так как над качеством постоянно ведётся работа и у Google, и у нас. Но могу сказать, что в целом для большинства направлений, включающих русский язык, большую часть времени мы впереди :)
А пользовательский фидбек хоть и помогает находить и решать локальные проблемы в переводе, но всё же главными факторами для построения качественного машинного переводчика являются скорее объёмы обучающих данных и алгоритмы обучения.
QA в Яндексе и QA в Гугле - это как взвод и армия.
Новые релизы гуглотранслейта реально намного лучше.
Отличная статья, не важно какой жопорукости у какого поисковика сейчас переводчик :) Все-равно прийдет тот день, когда мы будем запускать себе вавилонскую рыбку в ухо, как в у Дугласа Адамса в "Автостопом по галактике" и будем мгновенно понимать все языки вселенной ))))
Интересно, почему эсперанто не приживается? Может язык это не просто слова и грамматика, а нечто большее? Как будут переводить с "олбанского"?
Думаю, что машинный перевод будет развиваться, но сфера его использования будет ограничена. И поговорить "за жизнь" - это ведь не про погоду и детей спросить...
Комментарий удалён модератором
Комментарий удалён модератором
Забавно!
Сто раз видел цитаты той публикации, но вообще не пришло в голову, что "Dzmitry Bahdanau" это "Дмитрий Богданов", тем более бывший стажер Яндекса.
Он этим летом был стажером в брейне в mtv
Просто вы не беларус.
Вы упомянули именно MateCat. Интересно почему. Я решил что это что-то стоящее. К сожалению сразу наткнулся на пару багов и оставил попытки что-то сделать. Кто может посоветовать хороший онлайн CAT? Желательно чтобы markdown понимал.
Антон, а есть ли у Яндекса планы сделать возможность тренировки кастомных нейронных движков МТ на собственных корпусах?
Павел, немного не понял вопрос: имеется в виду тренировать наши нейронные движки на чьих-нибудь параллельных корпусах, или использовать наши параллельные корпуса для тренировки чьих-нибудь нейронных движков?
Если первое - то это интересная тема (по сути - адаптация перевода под домен, интересующий владельца корпуса), но прямо сейчас мы таким не занимаемся.
Если второе - то таких планов у нас нет: наши параллельные корпуса - наше богатство :)