Переводим видео с китайского

Особенности языка, которые преодолел Яндекс Браузер.

Иероглифы, тоны и другие особенности китайского не так-то просто освоить тем, кто раньше сталкивался только с европейскими языками. При этом китайская часть интернета содержит много уникального контента, который за пределами страны мало кому доступен из-за языкового барьера. В последние несколько месяцев мы работали над тем, чтобы его преодолеть: учили наш браузер переводить видео с китайского. Функция уже работает на YouTube, а чуть позже появится и на популярном китайском видеохостинге Bilibili.

Сегодня мы расскажем о том, как наша технология справилась со сложностями восточного языка и за несколько месяцев прошла путь, на который у человека могли бы уйти годы.

С чего мы начинали

Есть множество региональных языков и групп диалектов: кантонский, хакка, минь и другие. Они сильно отличаются, и их носители даже не всегда понимают друг друга. Самый распространенный вариант — севернокитайский язык. На Западе он известен как мандаринский. Им владеет почти миллиард человек, и это больше 70% населения Китая. Поэтому для перевода видео наша команда выбрала именно его. Но выбрать — это просто. Куда сложнее создать нейросеть, которая будет понимать этот язык.

Что мы сделали

С севернокитайским (дальше для вашего удобства мы будем называть его просто китайским) главной проблемой стал сбор качественных примеров для тренировки модели распознавания речи.

Мы нашли несколько тысяч часов видео с китайскими субтитрами. Затем с помощью различных инструментов отбраковали примеры с неподходящими диалектами и прочими проблемами. Например, если кто-то отметил, что субтитры на китайском, то это вовсе не означает, что они будут именно на нём, а не на английском. А ещё текст может быть не связан с голосами людей, а просто описывать происходящее на экране. Регулярно встречались и сдвинутые тайминги.

В результате от 1,5 миллионов исходных файлов с китайскими субтитрами остался сет из 100 тысяч роликов. Но этого оказалось достаточно для нейросети.

Иероглифическая, а не алфавитная письменность

Чтобы перевести видео, сначала нужно распознать речь и превратить её в текст — поэтому важно разбираться в письменности исходного языка. В китайском она совершенно не похожа на русский или английский языки, ведь тут нет привычного нам алфавита. Вместо него десятки тысяч иероглифов, из которых как из конструктора можно составлять слова и фразы. Например, «компьютер» — это иероглифы «электронный» и «мозг». Логично!

Каждый иероглиф читается как слог, однако многие иероглифы произносятся одинаково. Так что их намного больше, чем слогов: это называется омофонией — дальше расскажем о ней подробнее. Впрочем, все 20 тысяч иероглифов мало кто знает наизусть. Для нормального общения людям хватает и пары тысяч.

А ещё в китайском языке нет привычного для европейской письменности разделения на слова, и текст выглядит как сплошная последовательность иероглифов.

Что мы сделали

Парадоксально, но система китайской письменности, которая порой ставит в тупик иностранцев, не стала проблемой для обучения нейросети. Она использует словарь токенов — по сути, слогов. Если все европейские языки помещаются в 5000 токенов, то наш словарь для китайского — это 10 000 токенов. Разница только в объёме.

А вот отсутствие деления на слова усложнило нам жизнь. В одной части примеров, которые мы использовали для обучения, были пробелы между словами, в другой их не было. Помня о том, что в китайской письменности нет деления на слова, мы алгоритмически отбросили все пробелы. Но это была ошибка. Наша технология опирается на пробелы, чтобы синхронизировать перевод с исходной речью. Поэтому в итоге мы выбрали другое решение: расставили пробелы между «словами» там, где их не было.

Тоны определяют смысл

Произношение — ключевая характеристика китайской речи. Дело в том, что слова меняют смысл в зависимости от того, с каким тоном их произнести. Тон — это мелодический рисунок голоса. В китайском их четыре.

  • Первый — ровный и высокий.
  • Второй — восходящий: голос повышается к концу.
  • Третий — нисходяще-восходящий: сначала понижается, потом поднимается.
  • Четвёртый — нисходящий: быстро падает с высшей точки вниз.

Тажке есть нейтральный тон или, точнее, отсутствие тона. На письме эти особенности не передать, лучше послушать примеры.

Что мы сделали

Для того, чтобы нейросеть смогла распознавать тоны, ей понадобилось только время для работы с обучающими данными. За месяц модель проанализировала столько примеров, сколько человек не услышит за 15-20 лет жизни в Китае.

Нужно хорошо понимать контекст

С одной стороны, в китайском языке слова не меняются в зависимости от лица, времени, вида, рода, числа или падежа. Это упростило подготовку примеров по сравнению с языками со сложным словообразованием.

С другой стороны, при распознавании китайской речи очень важно учитывать контекст из-за обилия омофонов. Омофоны — это слова, которые звучат одинаково, но пишутся по-разному и обладают разным значением. Существует даже стихотворение, состоящее из 92 слогов «ши»: это связный рассказ о человеке, который решил съесть десять львов. Омофоны представляют интересную задачу для распознавания, потому что одного произношения недостаточно — важен контекст.

Что мы сделали

Наша технология умеет учитывать соседний текст при распознавании — можно сказать, что мы всегда готовились понимать китайский. Например, иероглиф 谓 («сказать», произносится «вей») почти всегда встречается в комбинации с другими иероглифами: 可谓 («можно сказать», «кэ-вей») и 所谓 («так называемый», «суо-вей»). Такие комбинации различать между собой проще.

Несмотря на сложные особенности китайского нам не пришлось заново создавать всю архитектуру перевода. Дело обошлось тщательной адаптацией технологии, которую мы уже отработали на других языках. И это плюс, потому что теперь перед нами открыты возможности для дальнейшего масштабирования решения.

Прямо сейчас пользователи Яндекс Браузера могут смотреть видео и трансляции с автоматическим переводом на русский с шести языков: английского, французского, испанского, итальянского, немецкого и теперь китайского. Языковые барьеры не для нас!

2727
7 комментариев

Клевая статья, спасибо!

И любопытно, что штатные авторы VC копипастнули 2 абзаца, поставили первой статьей - и собирают реакции 🥲

А тут тишина.

Ps. @Яндекс кстати, есть предложение - хочу про Yalm написать, комментарий бы кто дал 😈

4
Ответить

Комментарий недоступен

3
Ответить

И миска риса

Ответить

проще уже самому китайский выучить. ни одна нейросеть не сможет корректно сделать перевод с технического китайского или делового. что-то базовое вполне себе, но дальше будет винегрет

Ответить

Я уже спрашивал но мне не ответили ((( не в Ютубе ЯБ может переводить видео? Может где-то что-то нужно включить для этого? Я не нашел.

Ответить

Яндекс - как получить свои кровно заработанные деньги с РСЯ ? Почему вы не можете выплатить мне мой доход!?

Ответить