>Другая крайность — прописать в грамматике максимум готовых составных фраз, чтобы алгоритм делал ме…

24.02.2021

Как мы записывали голоса Николая Дроздова, AcademeG и Галины Юзефович для навигатора «2ГИС»

Навигатор — вещь более-менее привычная. «Поверните налево», «На следующем перекрёстке держитесь правее». Обезличенный голос вовремя говорит вам, куда ехать — и вот вы не пропустили нужный поворот, а доехали быстро и чётко. Что тут улучшать?

128128

Ренат Ренатович

24.02.2021

Другая крайность — прописать в грамматике максимум готовых составных фраз, чтобы алгоритм делал меньше склеек, просто доставал из библиотеки целиком записанную фразу. Звучать будет естественнее. Конечно, это нереально. Пришлось бы записывать тысячи(если не десятки тысяч) комбинаций.Есть ведь здесь умные люди? Подскажите, разве нельзя было на основе записей голоса (плюс может со старых видео подтянуть звук) сгенерировать десятки тысяч комбинаций фраз, не мучая диктора? Deepfake ведь с видео справляется, неужели с аудио сложнее (наверно проще)?

Ответить

Роботы

24.02.2021

Склейки вот да, звучат будто на дворе 10-й год. Даже тупые роботы-озвучники, которых всякие стримеры юзают, давно уже на порядок лучше слова клеят. И даже пытаются интонационно и ударениями слова в предложениях выделять.

Ответить

Профессор Фортран

25.02.2021

Даже без нейронных сетей, на классических алгоритмах звучало бы лучше. Но в любом случае нужно не менее 20 часов записанного аудио для качественного звучания. В статье же речь идёт об одном дне, то есть не больше 5-6 часов. Если прямо совсем упороться, то можно и с 5-6 часами сделать лучше, но тогда нужно нанимать программиста с опытом в данной области, то, опять же, резко повышает стоимость проекта. Так что, я думаю, ребята просто определили для себя бюджет и постарались в него уложиться.

Ответить

Bulat Ziganshin

24.02.2021

наверно проще. вот только deepfake - это результат работы учёных в области ML, так что пока подобных алгоритмов для звука нет, этот вариант невозможен

Ответить

Владимир Дрим

17.07.2021

нет, в стократ сложнее, у нас индустрия по визуальному df полумертвая, про звук говорить пока вообще не приходится.

Ответить