Мы сделали закадровый перевод на английский русскоязычных видео

Летом 2021г. Яндекс запустил технологию машинного перевода видео. Технология позволяет смотреть англоязычные ролики с русской озвучкой.

Это же круто! подумали мы, и хотели бежать смотреть англоязычные ролики в русском переводе. Но оказалось, что без установленного браузера от Яндекс, это сделать не получится.

Тогда же пришла идея, сделать свою технологию закадрового перевода русскоязычных роликов на английский. В таком случае любой видео блогер сможет быстро и легко адаптировать свой русскоязычный контент для англоязычной аудитории без лишних усилий, увеличить количество подписчиков, охват и монетизацию. Более того, мы убеждены, что большое количество русскоязычного контента было бы реально интересно англоязычной аудитории, если бы не языковой барьер!

Подумали — сделали!

Привет, меня зовут Станислав, вместе с моим партнером Николаем мы разрабатываем сервис для закадрового перевода видео — @VideoVoicecoverBot.

MVP пока доступен в виде Telegram бота и совершенно бесплатно :). В дальнейшем мы планируем сделать веб сервис. Если захотите обсудить, мы открыты для обсуждения идей и предложений — @uberwow.

Примеры:

English -> Русский

Русский -> English:

(в одном из переведенных примеров есть забавный артефакт :), самым наблюдательным просьба написать его в комментарии — подарим инвайт с предоплаченными минутами на перевод после запуска сервиса).

Технические нюансы:

Перевод, который выполняет Voicecover, получается закадровым и двухголосым. Мужские голоса переводятся мужским голосом, женские — женским. Оригинальная звуковая дорожка приглушается так, чтобы она была слышна, но не мешала восприятию, и накладывается на переведенную.

Бот умеет переводить закадровую речь в двух направлениях: с русского на английский и с английского на русский. Технически это выглядит как набор обработчиков и нейронных сетей, каждая из которых выполняет свою функцию.

Первым делом мы извлекаем с видео аудиодорожку и применяем к ней Speech Enhancement для удаления шумов и VAD (Voice activity detector) для определения начала и конца отрезков фраз. Далее мы распознаем и извлекаем текст с помощью VOSK, восстанавливаем знаки пунктуации, определяем границы предложений и привязываем к временным меткам информацию о поле говорящего, скорости, интонации и ударениях.

Переводим текст, и синтезируем в речь на выбранном языке с учетом пола, интонации, скорости и ударений. Отдельная нейросеть отвечает за синхронизацию оригинальной и переведенной речи, чтобы она выглядела органично. За синтез отвечает модель перевода текста в речь Rhasspy Larynx.

Что дальше?

Текущая реализация является далеко не идеальной, есть возможности для улучшения качества распознавания речи, перевода и синтеза, чем мы обязательно займемся.

В планах так же добавить клонирование голоса оригинального спикера и транслировать его на синтезированный перевод, субтитры и другие крутые фичи. Стоит отметить тот факт, что на всех этапах обработки, мы не используем сторонних сервисов. Весь процесс происходит на нашем сервере локально.

Концептуально веб сервис будет выглядеть так:

Мы сделали закадровый перевод на английский русскоязычных видео

Процесс использовнания сервиса выглядит крайне простым: выбираете желаемую громкость оригинальной звуковой дорожки, направление перевода и добавив ссылку на видео в Youtube или загрузив в виде файла, и нажимаете Перевести.

Результатом работы будет переведенный видео ролик, а также переведенное название и описание. Вам остаётся только скачать и залить видео на ваш канал.

Когда ждать релиза?

На самом деле мы будем очень признательны за ваш фидбек. Если это кому-то интересно и нужно, мы сделаем всё возможное, чтобы максимально быстро запустить сервис в работу.

Всем спасибо за внимание: )

1111
20 комментариев

Переводчики в итоге выйдут из чата раньше программистов, таксистов, и даже грузчиков, да? 🤔

2
Ответить

На самом деле не думаю, что прямо так категорично. Как минимум многим при личном общении важен перевод физического переводчика. Как максимум, в скором временим появится рынок разметки данных для создания датасетов для обучения сеток на разные языковые пары, где переводчики смогут принимать самое активное участие.

1
Ответить

да

Ответить

Капец вы красавчики! Я только подумал том что может быть такой бот, забил в гугле и вы опубликовали статью 40 минут назад. Супер совпадение)

1
Ответить

Спасибо) Как говорит один известный оратор: Совпадение? Не думаю!

1
Ответить

Это ваша технология или вы просто используете api яндекса подобных платформ для синтеза/перевода?

1
Ответить

Добрый день! Да, как я и писал в статье, все технологии (распознавание, перевод, синтез) работают локально на нашем сервере, без доступа к внешним провайдерам.

1
Ответить