Как мы записывали голоса Николая Дроздова, AcademeG и Галины Юзефович для навигатора «2ГИС»

Навигатор — вещь более-менее привычная. «Поверните налево», «На следующем перекрёстке держитесь правее». Обезличенный голос вовремя говорит вам, куда ехать — и вот вы не пропустили нужный поворот, а доехали быстро и чётко. Что тут улучшать?

Николай Дроздов (фото автора)
128128

Другая крайность — прописать в грамматике максимум готовых составных фраз, чтобы алгоритм делал меньше склеек, просто доставал из библиотеки целиком записанную фразу. Звучать будет естественнее. Конечно, это нереально. Пришлось бы записывать тысячи(если не десятки тысяч) комбинаций.Есть ведь здесь умные люди? Подскажите, разве нельзя было на основе записей голоса (плюс может со старых видео подтянуть звук) сгенерировать десятки тысяч комбинаций фраз, не мучая диктора? Deepfake ведь с видео справляется, неужели с аудио сложнее (наверно проще)?

2
Ответить

Склейки вот да, звучат будто на дворе 10-й год. Даже тупые роботы-озвучники, которых всякие стримеры юзают, давно уже на порядок лучше слова клеят. И даже пытаются интонационно и ударениями слова в предложениях выделять.

1
Ответить

Даже без нейронных сетей, на классических алгоритмах звучало бы лучше. Но в любом случае нужно не менее 20 часов записанного аудио для качественного звучания. В статье же речь идёт об одном дне, то есть не больше 5-6 часов. Если прямо совсем упороться, то можно и с 5-6 часами сделать лучше, но тогда нужно нанимать программиста с опытом в данной области, то, опять же, резко повышает стоимость проекта. Так что, я думаю, ребята просто определили для себя бюджет и постарались в него уложиться.

1
Ответить

наверно проще. вот только deepfake - это результат работы учёных в области ML, так что пока подобных алгоритмов для звука нет, этот вариант невозможен

Ответить

нет, в стократ сложнее, у нас индустрия по визуальному  df полумертвая, про звук говорить пока вообще не приходится.

Ответить