Вторая реалтайм TTS
VibeVoice-Realtime-0.5B
Не много прошло времени от первого open-source релиза Dia2-2B с поддержкой чанков текста на входе и вот.
Microsoft представила VibeVoice-Realtime-0.5B — новую модель для потокового синтеза речи.
Она поддерживает только английский язык и обеспечивает задержку примерно 0.3 секунды при старте генерации.
0.5 млрд параметров, что делает её значительно легче предыдущих версий (1.5B и 7B).
Клонировать голос не может, есть несколько голосов на выбор, видео демки:
Линк
Веса тут:
https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
Код тут:
https://github.com/microsoft/VibeVoice
Подписывайтесь на Telegram – xVibeNot
Начать дискуссию