Другая крайность — прописать в грамматике максимум готовых составных фраз, чтобы алгоритм делал меньше склеек, просто доставал из библиотеки целиком записанную фразу. Звучать будет естественнее. Конечно, это нереально. Пришлось бы записывать тысячи(если не десятки тысяч) комбинаций.Есть ведь здесь умные люди? Подскажите, разве нельзя было на основе записей голоса (плюс может со старых видео подтянуть звук) сгенерировать десятки тысяч комбинаций фраз, не мучая диктора? Deepfake ведь с видео справляется, неужели с аудио сложнее (наверно проще)?
Склейки вот да, звучат будто на дворе 10-й год. Даже тупые роботы-озвучники, которых всякие стримеры юзают, давно уже на порядок лучше слова клеят. И даже пытаются интонационно и ударениями слова в предложениях выделять.
Даже без нейронных сетей, на классических алгоритмах звучало бы лучше. Но в любом случае нужно не менее 20 часов записанного аудио для качественного звучания. В статье же речь идёт об одном дне, то есть не больше 5-6 часов. Если прямо совсем упороться, то можно и с 5-6 часами сделать лучше, но тогда нужно нанимать программиста с опытом в данной области, то, опять же, резко повышает стоимость проекта. Так что, я думаю, ребята просто определили для себя бюджет и постарались в него уложиться.
Другая крайность — прописать в грамматике максимум готовых составных фраз, чтобы алгоритм делал меньше склеек, просто доставал из библиотеки целиком записанную фразу. Звучать будет естественнее. Конечно, это нереально. Пришлось бы записывать тысячи(если не десятки тысяч) комбинаций.Есть ведь здесь умные люди? Подскажите, разве нельзя было на основе записей голоса (плюс может со старых видео подтянуть звук) сгенерировать десятки тысяч комбинаций фраз, не мучая диктора? Deepfake ведь с видео справляется, неужели с аудио сложнее (наверно проще)?
Склейки вот да, звучат будто на дворе 10-й год. Даже тупые роботы-озвучники, которых всякие стримеры юзают, давно уже на порядок лучше слова клеят. И даже пытаются интонационно и ударениями слова в предложениях выделять.
Даже без нейронных сетей, на классических алгоритмах звучало бы лучше. Но в любом случае нужно не менее 20 часов записанного аудио для качественного звучания. В статье же речь идёт об одном дне, то есть не больше 5-6 часов. Если прямо совсем упороться, то можно и с 5-6 часами сделать лучше, но тогда нужно нанимать программиста с опытом в данной области, то, опять же, резко повышает стоимость проекта. Так что, я думаю, ребята просто определили для себя бюджет и постарались в него уложиться.
наверно проще. вот только deepfake - это результат работы учёных в области ML, так что пока подобных алгоритмов для звука нет, этот вариант невозможен
нет, в стократ сложнее, у нас индустрия по визуальному df полумертвая, про звук говорить пока вообще не приходится.