Синтез речи, озвучка текста, голосовой ии, локальные решения и не только
Не пробовал пока, для этой задачи нужно гораздо больше шагов, чем просто озвучить текст, это если с lip sync делать и сохранять голос каждого спикера.
Если просто распознать текст и озвучить на русском, то использую genvoice.ru
Уже есть статья и пост в тг с примерами
Планирую собрать сервис для работы с синтезированной речью (синтез, распознавание, клонирование голоса) с этой и другими моделями.
Уже есть демка, если интересно, напишите мне пожалуйста:
https://t.me/brakanier
omni voice эт только озвучка, отделять аудио, липсинк, подставлять обратно - это все отдельно чем-то делать