Google представила Translatotron — технологию синхронного перевода устной речи Статьи редакции
Алгоритм умеет сохранять исходный голос говорящего.
Google представила новую технологию синхронного перевода устной речи — Translatotron. Об этом компания сообщила в своём блоге.
Обычно для перевода устной речи с одного языка на другой системы используют каскадную модель. Сначала система автоматически распознаёт речь для её транскрипции, затем осуществляется машинный перевод полученного текста, а после — преобразование текста в аудиозапись. Такая система в том числе используются в Google Translate.
Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.
Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.
Специалисты Google проверили работу алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком. Они переводили устную речь с испанского на английский язык. По итогам тестирования специалисты признали, что Translatotron пока уступает каскадной модели. Однако Translatotron — первая технология, способная напрямую переводить речь с одного языка на другой, отмечают в Google.
Посмотреть примеры работы алгоритма можно на странице Google на Github.
Переводчики всё.
Точно так же говорили, когда несколько лет назад добавили «нейросеть» в google translate. Я не знаю, что там с обычным разговорным языком, но специализированные переводы получаются такие, что легче человеку с нуля переводить, чем machine translation редактировать.