Google представила Translatotron — технологию синхронного перевода устной речи Статьи редакции

Алгоритм умеет сохранять исходный голос говорящего.

Google представила новую технологию синхронного перевода устной речи — Translatotron. Об этом компания сообщила в своём блоге.

Обычно для перевода устной речи с одного языка на другой системы используют каскадную модель. Сначала система автоматически распознаёт речь для её транскрипции, затем осуществляется машинный перевод полученного текста, а после — преобразование текста в аудиозапись. Такая система в том числе используются в Google Translate.

Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.

Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.

Схема работы алгоритма Translatotron Google

Специалисты Google проверили работу алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком. Они переводили устную речь с испанского на английский язык. По итогам тестирования специалисты признали, что Translatotron пока уступает каскадной модели. Однако Translatotron — первая технология, способная напрямую переводить речь с одного языка на другой, отмечают в Google.

Посмотреть примеры работы алгоритма можно на странице Google на Github.

0
59 комментариев
Написать комментарий...
Щукин Сергей

А рыбку в ухо надо для этого засовывать? 🐡🤔🧐

Ответить
Развернуть ветку
Anton Matrosov

Нет, но скорей всего придется прикладывать мобилу к уху торцом, как это сейчас делают некоторые клоуны и клоунки на улице и в ТРЦ (ума не приложу, зачем они это делают)

Ответить
Развернуть ветку
Alexander Dembovski

Слушают собеседника через динамик громкой связи. Вы действительно не понимаете, или шутка такая?

Ответить
Развернуть ветку
Anton Matrosov

И в чем смысл этого? Внешних шумов прилетает же намного больше

Ответить
Развернуть ветку
Птиц

Я так слушаю запись разговора, например. Хотя не понимаю почему их нельзя через передний динамик пускать...

Ответить
Развернуть ветку
Юрий Б.

Если в Вотсапе нажимаешь Play в голосовом сообщении И прикладываешь к уху, то начинает в разговорный динамик играть. В телеге вообще достаточно приложить к уху телефон с открытым чатом и голосовое само начнёт воспроизводиться.

Ответить
Развернуть ветку
Птиц

Пользуюсь стандартным рекордером. Наверное стоит поискать более удобный вариант.

Ответить
Развернуть ветку
Юрий Б.

Аа, я почему-то подумал, что речь про мессенджеры. Теперь вижу про прослушивание разговоров.

Ответить
Развернуть ветку
56 комментариев
Раскрывать всегда