Google представила Translatotron — технологию синхронного перевода устной речи Статьи редакции
Алгоритм умеет сохранять исходный голос говорящего.
Google представила новую технологию синхронного перевода устной речи — Translatotron. Об этом компания сообщила в своём блоге.
Обычно для перевода устной речи с одного языка на другой системы используют каскадную модель. Сначала система автоматически распознаёт речь для её транскрипции, затем осуществляется машинный перевод полученного текста, а после — преобразование текста в аудиозапись. Такая система в том числе используются в Google Translate.
Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.
Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.
Специалисты Google проверили работу алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком. Они переводили устную речь с испанского на английский язык. По итогам тестирования специалисты признали, что Translatotron пока уступает каскадной модели. Однако Translatotron — первая технология, способная напрямую переводить речь с одного языка на другой, отмечают в Google.
Посмотреть примеры работы алгоритма можно на странице Google на Github.
Ну наконец-то! Почему к ютубу до сих пор переводчик даже текстовый не прикрутили - загадка...
Или что-то пропустил?
Ну, ты что-то пропустил. Там есть автоматический переводчик субтитров. К слову, субтитры он тоже умеет создавать. Но до идеала этим технологиям ещё далеко.
И правда! Спасибо ))