Дополнение к прошлому посту

Text-to-speech модели, которые теоретически скоро появятся:

Orpheus-TTS

https://github.com/canopyai/Orpheus-TTS

Клонирование голоса: ✅
Реалтайм: ✅
RTF: не тестил

Пишут что хороший реалтайм, русский не поддерживает.

Есть готовый сетап под low latency streaming:
https://github.com/taresh18/orpheus-streaming

CosyVoice 3

https://github.com/FunAudioLLM/CosyVoice

Но веса не публиковали, доступна только CosyVoice 2, без поддержки русского.

Подписывайтесь на Telegram – xVibeNot