Google представила Translatotron — технологию синхронного перевода устной речи Статьи редакции

Алгоритм умеет сохранять исходный голос говорящего.

Google представила новую технологию синхронного перевода устной речи — Translatotron. Об этом компания сообщила в своём блоге.

Обычно для перевода устной речи с одного языка на другой системы используют каскадную модель. Сначала система автоматически распознаёт речь для её транскрипции, затем осуществляется машинный перевод полученного текста, а после — преобразование текста в аудиозапись. Такая система в том числе используются в Google Translate.

Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.

Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.

Схема работы алгоритма Translatotron Google

Специалисты Google проверили работу алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком. Они переводили устную речь с испанского на английский язык. По итогам тестирования специалисты признали, что Translatotron пока уступает каскадной модели. Однако Translatotron — первая технология, способная напрямую переводить речь с одного языка на другой, отмечают в Google.

Посмотреть примеры работы алгоритма можно на странице Google на Github.

0
59 комментариев
Написать комментарий...
Юрий Брильков

Отличная вещь, если в обозримом будущем будет работать "вживую".
И, любопытно, как они планируют решить проблему сленговых фраз?

Ответить
Развернуть ветку
Ivan Burban

и произношение англоговорящих индусов, я вообще сомневаюсь что оно распознает это как какой-то язык...

Ответить
Развернуть ветку
Юрий Брильков

Любой сильный акцент, или какие-то проблемы с речью должны в разы усложнять работу подобных инструментов (можно вспомнить даже шутки насчет навигаторов/голосовых поомщников и жителей из арабских стран)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
56 комментариев
Раскрывать всегда