реклама
разместить

Мы сделали закадровый перевод на английский русскоязычных видео

Летом 2021г. Яндекс запустил технологию машинного перевода видео. Технология позволяет смотреть англоязычные ролики с русской озвучкой.

Это же круто! подумали мы, и хотели бежать смотреть англоязычные ролики в русском переводе. Но оказалось, что без установленного браузера от Яндекс, это сделать не получится.

Тогда же пришла идея, сделать свою технологию закадрового перевода русскоязычных роликов на английский. В таком случае любой видео блогер сможет быстро и легко адаптировать свой русскоязычный контент для англоязычной аудитории без лишних усилий, увеличить количество подписчиков, охват и монетизацию. Более того, мы убеждены, что большое количество русскоязычного контента было бы реально интересно англоязычной аудитории, если бы не языковой барьер!

Подумали — сделали!

Привет, меня зовут Станислав, вместе с моим партнером Николаем мы разрабатываем сервис для закадрового перевода видео — @VideoVoicecoverBot.

MVP пока доступен в виде Telegram бота и совершенно бесплатно :). В дальнейшем мы планируем сделать веб сервис. Если захотите обсудить, мы открыты для обсуждения идей и предложений — @uberwow.

Примеры:

English -> Русский

Русский -> English:

(в одном из переведенных примеров есть забавный артефакт :), самым наблюдательным просьба написать его в комментарии — подарим инвайт с предоплаченными минутами на перевод после запуска сервиса).

Технические нюансы:

Перевод, который выполняет Voicecover, получается закадровым и двухголосым. Мужские голоса переводятся мужским голосом, женские — женским. Оригинальная звуковая дорожка приглушается так, чтобы она была слышна, но не мешала восприятию, и накладывается на переведенную.

Бот умеет переводить закадровую речь в двух направлениях: с русского на английский и с английского на русский. Технически это выглядит как набор обработчиков и нейронных сетей, каждая из которых выполняет свою функцию.

Первым делом мы извлекаем с видео аудиодорожку и применяем к ней Speech Enhancement для удаления шумов и VAD (Voice activity detector) для определения начала и конца отрезков фраз. Далее мы распознаем и извлекаем текст с помощью VOSK, восстанавливаем знаки пунктуации, определяем границы предложений и привязываем к временным меткам информацию о поле говорящего, скорости, интонации и ударениях.

Переводим текст, и синтезируем в речь на выбранном языке с учетом пола, интонации, скорости и ударений. Отдельная нейросеть отвечает за синхронизацию оригинальной и переведенной речи, чтобы она выглядела органично. За синтез отвечает модель перевода текста в речь Rhasspy Larynx.

Что дальше?

Текущая реализация является далеко не идеальной, есть возможности для улучшения качества распознавания речи, перевода и синтеза, чем мы обязательно займемся.

В планах так же добавить клонирование голоса оригинального спикера и транслировать его на синтезированный перевод, субтитры и другие крутые фичи. Стоит отметить тот факт, что на всех этапах обработки, мы не используем сторонних сервисов. Весь процесс происходит на нашем сервере локально.

Концептуально веб сервис будет выглядеть так:

Мы сделали закадровый перевод на английский русскоязычных видео

Процесс использовнания сервиса выглядит крайне простым: выбираете желаемую громкость оригинальной звуковой дорожки, направление перевода и добавив ссылку на видео в Youtube или загрузив в виде файла, и нажимаете Перевести.

Результатом работы будет переведенный видео ролик, а также переведенное название и описание. Вам остаётся только скачать и залить видео на ваш канал.

Когда ждать релиза?

На самом деле мы будем очень признательны за ваш фидбек. Если это кому-то интересно и нужно, мы сделаем всё возможное, чтобы максимально быстро запустить сервис в работу.

Всем спасибо за внимание: )

1111
реклама
разместить
21 комментарий

Комментарий недоступен

2

На самом деле не думаю, что прямо так категорично. Как минимум многим при личном общении важен перевод физического переводчика. Как максимум, в скором временим появится рынок разметки данных для создания датасетов для обучения сеток на разные языковые пары, где переводчики смогут принимать самое активное участие.

1

Капец вы красавчики! Я только подумал том что может быть такой бот, забил в гугле и вы опубликовали статью 40 минут назад. Супер совпадение)

1

Спасибо) Как говорит один известный оратор: Совпадение? Не думаю!

1

Это ваша технология или вы просто используете api яндекса подобных платформ для синтеза/перевода?

1

Добрый день! Да, как я и писал в статье, все технологии (распознавание, перевод, синтез) работают локально на нашем сервере, без доступа к внешним провайдерам.

1
Раскрывать всегда
Восьмизначный ежемесячный доход: Миф или Реальность? Разбор самого популярного TG канала

Вход на маркетплейсы все больше и больше, оффлайн бизнесы окупается слишком долго, а банковские вклады вообще не несут прибыли... Неужели именно бизнес в TG - самое лучшее вложение в 2025? Разбираемся в этой статье

Восьмизначный ежемесячный доход: Миф или Реальность? Разбор самого популярного TG канала
1414
1010
11
реклама
разместить
Как использовать РСЯ (Рекламную Сеть Яндекса) для увеличения охвата?

Сегодня хотел бы рассказать о том, как использовать РСЯ чтобы увеличить охват.

Как использовать РСЯ (Рекламную Сеть Яндекса) для увеличения охвата?
66
11
День 1053: «Роскосмос» и NASA продлили программу перекрестных полётов на МКС до 2026 года

Собираем новости, события и мнения о рынках, банках и реакциях компаний.

Фото «Роскосмос» 
1616
22
11
11
Умиляют новости про рост оборота, выручки и пр. с учетом текущего уровня инфляции.
Neuralink успешно вживила мозговой имплант третьему пациенту

В планах компании провести ещё 20-30 операций в 2025 году.

Фото Bloomberg 
2525
55
44
11
кто эти люди, которые на это соглашаются добровольно?) или я слишком отстала от времени..
Как я устроился на работу к Аязу Шабутдинову в 15 лет вместо 10 класса

Эта история наполнена стечением обстоятельств, которые изменили мою жизнь в 15 лет. Тут и сопли-слезы, деньги, эмоции, победы и выводы. Таких историй ты точно ещё не читал. Да я и сам в шоке до сих пор.

2121
1313
55
Потерял все деньги на трейдинге и ушел в Telegram. Можно ли здесь заработать?

Думаю, многие из вас знают, что трейдинг весьма рисковое занятие. Но, как говорится, кто не рискует — тот не пьет шампанское. Исходя из названия статьи думаю понятно, что шампанского я не попил. Однако, после этого мне на глаза попадается Telegram, и я решаю попробовать свои силы в нем. Получится ли?

Потерял все деньги на трейдинге и ушел в Telegram. Можно ли здесь заработать?
99
11
11
Из IT в стройку: Как айтишники из Москвы открыли современную ремонтную компанию в Москве и сколько это приносит
Из IT в стройку: Как айтишники из Москвы открыли современную ремонтную компанию в Москве и сколько это приносит
66
22
Продажа электронных сигарет будет полностью запрещена. Но почему снова не вспомнили о традиционных сигаретах?
Чем раньше человек начинает курить, тем сильнее укореняется эта привычка в его жизни.

С весны 2022 года в России ужесточили борьбу с электронными сигаретами: Путин подписал закон, ограничивающий их продажу и запрещающий её несовершеннолетним. В апреле 2023 года депутаты Госдумы от КПРФ, ЛДПР, «Новых людей» и «Справедливой России — За правду» предложили полностью запретить продажу никотиносодержащей продукции, включая вейпы, соли ник…

55
11
[]