Все open-source модели для синтеза речи на русском

Полный список всех актуальных open-source TTS, которые умеют в синтез на русском языке.


XTTS v2

https://github.com/idiap/coqui-ai-TTS
Клонирование голоса: ✅
Реалтайм: ✅
RTF (Realtime factor): 0.3-0.6 на rtx 3090

Модель может в ru изначально, но есть и файнтюны:
https://huggingface.co/tensorbanana/xttsv2_banana
https://huggingface.co/NeuroDonu/RU-XTTS-DonuModel


F5
https://github.com/SWivid/F5-TTS
Клонирование голоса: ✅
Реалтайм: ✅
RTF: 0.14 на rtx 3090, 0.08 на rtx 5090 при nfe=16

ESpeech (та же F5)
https://huggingface.co/ESpeech

Относительно новый файнтюн F5, представлено несколько весов.
Мне больше всего зашли RL 1 и SFT 95k.
Релиз пост автора (внутри демо):
https://t.me/den4ikresearch/117

Доклад от автора про датасет и модели:
https://www.youtube.com/watch?v=B6kO5qVhMnw


Chatterbox

Клонирование голоса: ✅
Реалтайм: ✅
RTF: не тестил


VibeVoice

Клонирование голоса: ✅
Реалтайм: ❌
RTF: >1 для 7B модели

Большая модель, умеет клонировать голос, но о реалтайме с большой 7B моделью в базовом виде можно забыть.

Реалтайм реализация и подробности от Tensor Banana:
https://t.me/tensorbanana/1236


FishSpeech

Клонирование голоса: ✅
Реалтайм: ✅
RTF: 0.14 на rtx 4090 (по заявлению от авторов), не тестил


Silero

Клонирование голоса: ❌
Реалтайм: ✅
RTF: не тестил

Поддерживает много СНГ языков и акценты. Умеет в SSML.


Piper TTS

Клонирование голоса: ❌
Реалтайм: ✅
RTF: не записал

Очень маленькая и шустрая модель, умеет в русский, но не умеет клонировать голос. Пробовал завести с RVC, но достичь реалтайма не получилось (из-за RVC).

Подписывайтесь на Telegram – xVibeNot

1