Google представила Translatotron — технологию синхронного перевода устной речи Статьи редакции
Алгоритм умеет сохранять исходный голос говорящего.
Google представила новую технологию синхронного перевода устной речи — Translatotron. Об этом компания сообщила в своём блоге.
Обычно для перевода устной речи с одного языка на другой системы используют каскадную модель. Сначала система автоматически распознаёт речь для её транскрипции, затем осуществляется машинный перевод полученного текста, а после — преобразование текста в аудиозапись. Такая система в том числе используются в Google Translate.
Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.
Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.
Специалисты Google проверили работу алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком. Они переводили устную речь с испанского на английский язык. По итогам тестирования специалисты признали, что Translatotron пока уступает каскадной модели. Однако Translatotron — первая технология, способная напрямую переводить речь с одного языка на другой, отмечают в Google.
Посмотреть примеры работы алгоритма можно на странице Google на Github.
А рыбку в ухо надо для этого засовывать? 🐡🤔🧐
Нет, но скорей всего придется прикладывать мобилу к уху торцом, как это сейчас делают некоторые клоуны и клоунки на улице и в ТРЦ (ума не приложу, зачем они это делают)
Слушают собеседника через динамик громкой связи. Вы действительно не понимаете, или шутка такая?
И в чем смысл этого? Внешних шумов прилетает же намного больше
Я так слушаю запись разговора, например. Хотя не понимаю почему их нельзя через передний динамик пускать...
Если в Вотсапе нажимаешь Play в голосовом сообщении И прикладываешь к уху, то начинает в разговорный динамик играть. В телеге вообще достаточно приложить к уху телефон с открытым чатом и голосовое само начнёт воспроизводиться.
Пользуюсь стандартным рекордером. Наверное стоит поискать более удобный вариант.
Аа, я почему-то подумал, что речь про мессенджеры. Теперь вижу про прослушивание разговоров.