Итак, на первый взгляд эта идея кажется обязательной для компании, работающей в сфере голосовых ботов, но цена реализации неизвестна. В процессе исследования мы поняли, что реализовать синтез мы можем, но его качество в большей степени зависит от собранных данных исходного голоса и его доработок, потому что основные и ключевые технологии создания синтеза открыты и доступны.
Для сравнения, в 2019 Tinkoff только на свой суперкомпьютер «Колмогоров» потратили около 1 млн. долларов без расходов на разработку программного обеспечения. О стоимости разработки ПО можно только гадать, информацию в открытых источниках мне не удалось найти.
А что с распознаванием?
Двигаемся в этом направлении. Думаю, что чуть позже напишем об этом.
Сколько примерно длилось обучение Tacotron 2?
У сокурсников получилось около 16-20 часов обучения, но это была исследовательская работа в рамках студенческой конференции . Вот ссылка на доклад на киберленинке https://cyberleninka.ru/article/n/sistema-sinteza-estestvennoy-rechi-dlya-russkogo-yazyka-na-baze-glubokih-neyronnyh-setey, результат синтеза речи можно посмотреть на сайте https://voxworker.com/ru (голос оксана). Если будут вопросы - то спрашивайте
Молодцы;)Очень интересно.