Вторая реалтайм TTS

VibeVoice-Realtime-0.5B

Не много прошло времени от первого open-source релиза Dia2-2B с поддержкой чанков текста на входе и вот.

Microsoft представила VibeVoice-Realtime-0.5B — новую модель для потокового синтеза речи.

Она поддерживает только английский язык и обеспечивает задержку примерно 0.3 секунды при старте генерации.

0.5 млрд параметров, что делает её значительно легче предыдущих версий (1.5B и 7B).

Клонировать голос не может, есть несколько голосов на выбор, видео демки:
Линк

Веса тут:
https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
Код тут:
https://github.com/microsoft/VibeVoice

Подписывайтесь на Telegram – xVibeNot

Начать дискуссию