«Было приятно, когда наш синтез речи приняли за диктора»: как работает автоперевод и озвучка видео в «Яндекс.Браузере»

Глава браузера Роман Иванов о том, как нейросети переводят устную речь, почему с их помощью нельзя посмотреть Netflix и уничтожит ли новый сервис языковой барьер в интернете.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fyandex.ru%2Fblog%2Fcompany%2Fsmotrite-po-russki-yandeks-zapustil-zakadrovyy-perevod-video&postId=324013" rel="nofollow noreferrer noopener" target="_blank">Яндекс</a>

В сентябре 2021 года «Яндекс» добавил в свой браузер перевод англоязычных видео из YouTube, Vimeo, TikTok, Twitter и «ВКонтакте». Пользователю нужно нажать на кнопку в плеере и подождать несколько минут: система приглушит оригинальную озвучку и поверх неё наложит устный перевод на русском.

При запуске в компании заявили, что одна из их главных задач — «полностью стереть языковые границы в интернете». Глава «Яндекс.Браузера» Роман Иванов рассказал:

Об авторе идеи и трудностях разработки
О внутреннем устройстве сервиса, какой контент переводить проще и какой не поддерживается
О переводе мата, ошибках и передаче эмоций
О планах на будущее, интеграции в сервисы Яндекса и переводе в режиме реального времени

Как и когда у вашей команды появилась идея запустить перевод видео в браузере?

У нас в компании выстроена такая система планирования: раз в полгода мы собираемся, придумываем, что бы хотелось сделать. Придумывать можно либо основываясь на улучшении чего-то уже существующего, либо пытаясь найти что-то новое и необычное.

Мы искали новые идеи в сентябре 2020 года, когда переводить и озвучивать видео в интернете предложил Андрей Законов, на тот момент он отвечал за продуктовое развитие голосового помощника «Алиса».

«Алиса» умеет распознавать речь через нейросети, генерировать и синтезировать ответ. Законов взял эти элементы, как кубики, и сложил из них новую фигуру. Он пришёл с этим ко мне, руководителю браузера, а также к руководителю сервисов, связанных с машинным обучением и распознаванием речи.

Как долго шла разработка, с какими трудностями за это время вы столкнулись? Когда создали первые прототипы?

Мы начали разработку в ноябре 2020 года, за четыре месяца собрали первый прототип. Первая версия для команды появилась в марте, а уже в июле мы публично анонсировали разработку. Сделали это потому, что начали проводить A/B-тестирование функции: проверяли, не сломали ли мы что-то в браузере, не сделали ли хуже.

Была контрольная группа, которая пользовалась обычной версией браузера, и экспериментальная, где был подключён перевод видео.

Если бы мы начали тестировать разработку без объявления, первый же журналист, случайно наткнувшись на эту функцию, всё равно раскрыл бы наши планы. Поэтому сделали анонс до полноценного запуска, хотя обычно предпочитаем так не делать: вдруг изменятся приоритеты или что-то не получится.

С какими-то огромными трудностями при разработке мы не сталкивались, но задача стояла сложная: перевод видео мы собирали из разных технологий и старались оптимизировать эту функцию так, чтобы у нас хватило на неё мощностей.

Для работы над проектом мы собрали команду из нескольких отделов: одни ребята занимались распознаванием речи, другие переводами, а третьи — интерфейсами в браузере.

Есть ли сейчас на рынке аналоги вашей системы, насколько сильна конкуренция? Если да, чем ваш сервис выделяется на их фоне?

Мне неизвестны конкуренты, которые делают то же самое, что и мы, то есть закадровый перевод любого видео в интернете с английского на русский в браузере, а не озвучку субтитров или какие-то подобные схемы. Знаю, что у Google уже два года есть наушники Pixel Buds, которые умеют переводить речь вокруг человека с десятка языков с какой-то задержкой.

Эта функция работает только если у тебя есть смартфон Pixel и ты живёшь в США или ещё паре стран, в России это не работает. К тому же, Pixel Buds занимаются переводом окружающих звуков, а не работают с видео в браузере.

У сервиса есть какие-то региональные ограничения? В каких странах вообще работает перевод видео, можно ли приехать в США и продолжить пользоваться этой функцией браузера?

Сейчас главное ограничение — наличие перевода только с английского на русский. Мы работаем над другими языками, но сервис пока полезен только для русскоязычных, такое ограничение по целевой аудитории. Работу в других странах мы не блокируем.

Наша основная аудитория — русскоязычные пользователи в России и других странах, планов захватывать «Яндекс.Браузером» США у нас пока нет.

В идеале нужно поддерживать все языковые пары, но дорабатывать ASR, то есть функцию распознавания речи, а потом ещё синтезировать речь под каждый язык — это отдельная работа, которую ещё надо проделать.

Как часто пользователи используют автоперевод? Какая часть из них использует его регулярно, а не только запускает попробовать на один раз, у вас есть такие данные?

В первую неделю после запуска у нас было в среднем по три просмотра видео с переводом на пользователя. По нашим данным, больше трети из тех, кто включают перевод, досматривают видео с ним до конца.

За два месяца с момента запуска сервис перевёл 4 млн уникальных видео, им воспользовались 3,5 млн пользователей. Всего просмотров у переведённых роликов набралось 11 млн, то есть некоторые ролики смотрел более, чем один пользователь.

А где чаще всего используют ваш сервис, на каких площадках?

Пользователи чаще всего используют функцию перевода для видео с YouTube. На втором месте по популярности сервис «Яндекс.Видео», где собраны ролики с разных площадок. Из интересного — на пятом месте по популярности TikTok.

Последнее, что я сам смотрел с переводом на YouTube — обзор какого-то американского блогера на наушники, которыми я пользуюсь.

Расскажите, как устроен сервис перевода видео в браузере, какие технологии в нём применяются? Давайте разберём алгоритм поэтапно.

В целом алгоритм выглядит так:

Пользователь нажимает на кнопку перевода видео, после чего браузер распознаёт аудиодорожку или видео целиком.
Запись передаётся функции распознавания речи, которая превращает её в набор слов с метаинформацией: каким голосом были сказаны слова — мужским или женским, в какой момент времени и так далее.
Затем запускается нейросеть, известная как речанкер: она объединяет отдельно стоящие слова в группы, выделяет акценты и разбивает их на предложения.
Далее они передаются «Яндекс.Переводчику», он переводит получившийся после работы речанкера английский текст на русский.
В конце система сопоставляет метаинформацию и переведённый текст и синтезирует его в речь на русском языке так, чтобы попасть в тайминги и сохранить паузы. Это необходимо, чтобы вместить перевод в оригинальную аудиодорожку.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fhabr.com%2Fru%2Fcompany%2Fyandex%2Fblog%2F576438%2F&postId=324013" rel="nofollow noreferrer noopener" target="_blank">Яндекс</a>

У наших нейросетей нет каких-то определённых названий, мы используем классы технологий ASR и TTS, то есть распознавание и синтез речи, которые известны под общим названием Yandex SpeechKit. Важная роль в переводе видео также отведена биометрии — она определяет, на какой голос больше похож голос говорящего: мужской или женский.

Подчеркну, что технологии, которые лежат «под капотом» перевода видео, существуют много лет, но, например, ещё три года назад мы бы не смогли запустить эту функцию. За последние года технологии сделали гигантский прыжок вперёд, например, в «Яндекс.Переводчике» мы перешли от статистических моделей к нейросетевым. Пользователи этого не замечают, потому что перевод улучшается постепенно.

Нам очень польстило, когда мы опубликовали прототип и некоторые видео с нашим переводом, а люди в интернете написали: «Яндекс нас обманывает, очевидно, что это не синтез речи, просто диктору дали зачитать, зачем они нас обманывают, это вскроется».

Определяет ли алгоритм формат контента, который переводит, и учитывает ли контекст? Может ли он понять, что пользователь смотрит стендап, отрывок фильма, запись игрового стрима?

Сейчас мы не учитываем контекст для перевода видео, но хотим работать в этом направлении, это полезно. Например, браузер мы пару лет назад научили определять разные части веб-страницы, заголовки, навигационные элементы и текст. Их переводят разные нейросети. Так, например, в меню навигации back означат действие «назад», а не слово «спина», система это учитывает.

В переводе видео учёта контекста пока нет, но он может заметно улучшить качество перевода. Одной из частых ошибок сейчас является слово "you": вне контекста нейросеть может перевести его как «ты», даже если на записи человек обращается к большой аудитории.

Мы запрограммировали систему так, чтобы она всегда переводила "you" как «вы», но теперь, когда на видео неформальный диалог двух друзей, и они неожиданно начинают «выкать» друг другу — это может выглядеть странновато.

Какие форматы видео сервису переводить проще, а какие сложнее? Кто занимает лидирующие позиции в этих рейтингах?

Когда мы делали эту функцию, мы поняли, что она хорошо работает на обучающих видео и лекциях. В таких записях никто друг друга не перебивает и речь остаётся размеренной.

Легче всего переводить лекции без обилия терминологии: иногда она пересекается с распространёнными словами в специальном значении.

Сложнее всего переводить стримы по играм, из-за большого количества побочных звуков и возгласов. Люди на таких записях также часто обрывают фразы и не договаривают предложения.

Перевод фрагмента лекции основателя Wikipedia Джимми Уэйлса

Какой тип контента нельзя перевести с помощью «Яндекс.Браузера»? Например, мы знаем, что сейчас с переводом нельзя смотреть сериалы на Netflix, почему так происходит?

Есть два типа контента, которые браузер не может перевести: один из-за неподдерживаемых мелких видеохостингов, а другой — из-за технических и лицензионных ограничений.

В первом случае сложность заключается в том, что под каждый хостинг нужно адаптировать систему отдельно: понимать, где на странице находится видео, на каком языке оно, как уменьшить громкость аудио, чтобы наложить перевод поверх. Мы начали с крупных видеохостингов и постепенно расширяем список.

Во втором — есть принципиальные технические ограничения: например, контент, который защищён DRM. Сериалы с Netflix можно воспроизвести только на конечном устройстве, то есть такой контент зашифрован и расшифровывается только на устройстве пользователя. Мы не можем брать аудиодорожку отдельно от видео и отправлять её себе на сервер.

Поэтому сделать перевод видео с Netflix или любого другого лицензированного контента под DRM теоретически можно, если полностью все перенести процессы распознавания речи, перевода и озвучки на компьютер пользователя.

Впрочем, вы вряд ли получите большое удовольствие от просмотра блокбастера с переводом от нейросети — качеству сервиса ещё есть, куда расти. Но может быть, через несколько лет он будет переводить так, что актёры дубляжа, как минимум, не самых дорогих блокбастеров, останутся без работы.

А что насчёт авторских прав, не нарушает ли перевод лицензированного контента закон?

Перевод видео — эту функция в браузере пользователя, которую он самостоятельно запускает на любых выбранных им видео, и результаты работы этой функции используются пользователем в своих личных некоммерческих целях.

Что будет, если пользователи попробуют перевести с помощью браузера запрещённый в РФ контент или фильм, и выложат результат в интернет? Планируете ли вы это как-то блокировать?

Как я уже упомянул, пользователь самостоятельно управляет функцией перевода и запускает ее на тех видео, на которых считает нужным — мы лишь предоставляем для этого техническое средство. Если пользователь нарушит условия использования сервиса — это его персональная ответственность. Никакой цензуры вводить не планируется.

Например, если пользователь переведёт книгу с русского на английский и тем самым нарушит авторские права владельца исходного произведения, это будет его личная ответственность, а не онлайн-переводчика, которым он воспользовался. Перевод видео работает по аналогичной схеме.

Можете объяснить, как в «Яндекс.Браузере» работает перевод сленга и мата? Что для вас важнее: сохранить исходное слово или передать смысл, когда специфичное ругательство заменяешь цензурным аналогом?

Мы переводим и сленг, и мат, но настроены на смысл, а не на точный перевод. В будущем мы можем сделать режим наподобие семейного, чтобы ограничить просмотр видео с нецензурным переводом для желающих.

Сцена из фильма «Кровь и бетон»

Часто ли система ошибается? Можете поделиться примерами смешных ошибок или грубым переводом?

Был забавный инцидент с мотивационным видео, на котором актёр Шайя Лабафф пытается сподвигнуть людей воплощать свои мечты в реальности. В ролике он несколько раз кричит «Просто сделай это».

Из-за того, что он выступал очень эмоционально, в некоторых моментах его начинал переводить женский голос. При этом, когда он говорил спокойно, его переводил мужской.

Всё дело в том, что у женщин, как правило, более высокий тембр голоса, поэтому когда человек кричит, то наша биометрическая система считает, что это говорит женщина. Не гарантирую, что мы уже это исправили.

Может ли сервис передавать интонации говорящего, эмоции, повышение и понижение голоса? Или это будет дальше улучшаться?

Простые интонации вроде вопросительной мы уже используем, ещё больший спектр эмоций, от крика и шёпота до злости, мы бы хотели добавить. Для каждой отдельной большой эмоции необходимо обучать нейросети, вносить большие изменения.

Хотелось бы, чтобы через несколько лет переводчик подбирал к озвучке голос, похожий на оригинальный, вместе с эмоциями, особенностями словоупотребления и акцентом.

Как вы подбирали звучание для мужского и женского голосов в переводе, устраивали прослушивание с актёрами. Искали какие-то усреднённые, приятные всем голоса?

Два актёра в студии записали десятки, если не сотни тысяч часов своей речи, на основе которой мы обучили нейросеть. Мы не пытались найти какое-то усреднённое звучание, просто выбрали хорошие голоса. Женский голос в переводе принадлежит «Алисе».

Конечно, у нас есть больше, чем два голоса: технологии синтеза речи в Яндексе развиваются много лет, и в нашем распоряжении большая лицензионная библиотека голосов — в ней и голоса наших сотрудников, и актеров озвучивания.

А ещё мы учимся конструировать новые голоса из разных записей в интернете. Мы не копируем чью-то конкретную речь — нейросеть учится, создаёт новые и модифицирует их так, чтобы они не были похожи на оригинал.

Скажите, появится ли в «Яндекс.Браузере» поддержка новых языковых пар?

Совсем недавно мы запустили переводы с французского, немецкого и испанского языков на русский. Мы выбрали эти варианты потому, что они наиболее распространённые, с ними выходит наибольшее количество видео.

В мире ещё очень популярны китайский язык и хинди, но контента на них попадается меньше, поэтому они не будут так полезны нашим пользователям.

У Китая есть собственный рынок, а в Индии чаще выкладывают контент на английском языке. Сейчас мы переводим видео только на русский язык, но, конечно, хотим расширить работу с языковыми парами во все стороны.

Как сервис будет меняться в ближайшее время? Не планируете ли вы добавить функцию перевода в другие сервисы «Яндекса», например, в «Кинопоиск»?

Мы считаем, что не имеем права размещать перевод не в клиентском приложении или на устройстве. Поэтому внедрять функцию вне «Яндекс.Браузера» мы не планируем.

А в виде расширения для других браузеров или отдельного плагина тоже не появится?

У нас сейчас нет таких планов. Когда мы используем перевод в «Яндекс.Браузере», мы получаем конкретную пользу: убеждаем пользователей воспользоваться нашими сервисами.

А если мы сделаем расширение для Chrome, то какую пользу это принесет «Яндексу»? У Chrome жесткая политика в отношении расширений: они не могут иметь сразу несколько функций.

Таким образом, даже если мы сделаем расширение с переводом видео, мы не сможем снабдить его, скажем, предложением сменить дефолтный поиск на «Яндекс». Ну а делать функцию перевода платной для пользователей мы не хотим.

Собираетесь как-то монетизировать перевод видео?

Для пользователей мы не планируем делать эту функцию платной. Она сделана в расчёте на то, что перевод им будет нравиться и их заинтересуют наши сервисы. Если люди будут пользоваться нашим браузером или мобильными приложением, для нас этого достаточно.

Пользователи в комментариях предполагали, что мы можем монетизировать эту функцию добавив аудиорекламу в переведенные видео, но нет, конечно же такое не планируется, ни в коем случае.

При этом мы рассматриваем вариант предоставления B2B-доступа к этой функции через «Яндекс.Облако». Например, другие компании смогут загружать через API свои материалы, которые нейросеть в «Яндекс.Облаке» будет переводить за какие-то деньги.

Сейчас перед переводом приходится ждать минуту-две. Как вы думаете, будет ли функция в будущем работать в реальном времени? Что для этого нужно, как скоро это может стать возможным?

Мы хотим добавить перевод трансляций в «Яндекс.Браузер» с минимальной задержкой и работаем над этим, но пока не можем дать конкретных обещаний.

Когда компании говорят о работе в режиме реального времени, они имеют в виду обработку запроса с минимальной задержкой. Время может быть разным. Например, при просмотре онлайн-трансляции задержка в десять секунд вряд ли будет критичной.

Если мы начнём работать вообще без задержек, алгоритм должен будет предсказывать ещё незаконченные фразы, так как на разбор и пересылку аудиодорожек нужно время.

При этом речь может резко сменить направление: например, в немецком языке отрицание ставится в конец предложения, из-за чего меняется весь смысл сказанного.

Сможет ли технология перевода видео стереть языковые границы между разными сегментами интернета и людьми? Насколько мы к этому близки?

Языковой барьер одним только переводом видео не разрушить. У нас также есть перевод текста, страниц, картинок, но этого пока все равно не достаточно, потому что для полноценного общения без языковых границ между пользователями в интернете должна быть «двусторонняя связь».

Я имею ввиду, что общение — это двусторонний процесс, и важно чтобы человек мог не только потреблять контент на другом языке, но и создавать в ответ контент, который тоже переводился бы на нужный язык.

Например, посмотрел человек из России видео своего испанского друга с помощью перевода видео в «Яндекс.Браузере», а после этого он захочет оставить под видео комментарий — естественно, нужно, чтобы этот комментарий был переведен на испанский.

Конечно, сейчас он может воспользоваться для этого отдельным онлайн-переводчиком, то есть отдельные технологии для создания системы без языковых границ уже существуют, но полностью слаженной среды, которая бы позволяла «бесшовно» общаться носителям разных языков, пока нет.

Я верю, что такой среде еще предстоит возникнуть, потому что за 21 век все страны на один язык точно не перейдут, но потребность общаться между людьми из разных стран будет только расти, и нейросети обязательно должны помочь с решением этой проблемы.

#яндексбраузер #перевод

«Было приятно, когда наш синтез речи приняли за диктора»: как работает автоперевод и озвучка видео в «Яндекс.Браузере»

Об авторе идеи и разработке

О внутреннем устройстве сервиса, какой контент переводить проще и какой не поддерживается

О переводе мата, ошибках и передаче эмоций

О планах на будущее, интеграции в сервисы Яндекса и переводе в режиме реального времени