Google представила Translatotron — технологию синхронного перевода устной речи

Алгоритм умеет сохранять исходный голос говорящего.

Google представила новую технологию синхронного перевода устной речи — Translatotron. Об этом компания сообщила в своём блоге.

Обычно для перевода устной речи с одного языка на другой системы используют каскадную модель. Сначала система автоматически распознаёт речь для её транскрипции, затем осуществляется машинный перевод полученного текста, а после — преобразование текста в аудиозапись. Такая система в том числе используются в Google Translate.

Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.

Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.

Схема работы алгоритма Translatotron Google
Схема работы алгоритма Translatotron Google

Специалисты Google проверили работу алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком. Они переводили устную речь с испанского на английский язык. По итогам тестирования специалисты признали, что Translatotron пока уступает каскадной модели. Однако Translatotron — первая технология, способная напрямую переводить речь с одного языка на другой, отмечают в Google.

Посмотреть примеры работы алгоритма можно на странице Google на Github.

21K21K открытий
59 комментариев

И вот зачем я учился 5 лет на переводчика? 😂

Ответить

Действительно - зачем? Ведь уже 5 лет назад предупреждали, что переводчик - одна из первых профессий для замены нейросетями.

Ответить

Судя по тому как быстро развивается машинный перевод, ещё лет 10 ваша специальность будет востребована)

Ответить

Переводчик как человек-профессионал, думаю, будет востребован всенюгда. Просто учиться будем скоро по-другому. 5 лет по нынешним меркам это расточительно много.

Ответить

А рыбку в ухо надо для этого засовывать? 🐡🤔🧐

Ответить

Нет, но скорей всего придется прикладывать мобилу к уху торцом, как это сейчас делают некоторые клоуны и клоунки на улице и в ТРЦ (ума не приложу, зачем они это делают)

Ответить

Если только Настю...

Ответить