Все open-source модели для синтеза речи на русском

Полный список всех актуальных open-source TTS, которые умеют в синтез на русском языке.

XTTS v2

https://github.com/idiap/coqui-ai-TTS
Клонирование голоса: ✅
Реалтайм: ✅
RTF (Realtime factor): 0.3-0.6 на rtx 3090

Модель может в ru изначально, но есть и файнтюны:
https://huggingface.co/tensorbanana/xttsv2_banana
https://huggingface.co/NeuroDonu/RU-XTTS-DonuModel

F5
https://github.com/SWivid/F5-TTS
Клонирование голоса: ✅
Реалтайм: ✅
RTF: 0.14 на rtx 3090, 0.08 на rtx 5090 при nfe=16

RU файнтюн:
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN

Демо:
https://misha24-10.github.io/Misha24-10/

ESpeech (та же F5)
https://huggingface.co/ESpeech

Относительно новый файнтюн F5, представлено несколько весов.
Мне больше всего зашли RL 1 и SFT 95k.
Релиз пост автора (внутри демо):
https://t.me/den4ikresearch/117

Доклад от автора про датасет и модели:
https://www.youtube.com/watch?v=B6kO5qVhMnw

Chatterbox

https://github.com/resemble-ai/chatterbox

Клонирование голоса: ✅
Реалтайм: ✅
RTF: не тестил

Демо:
https://resemble-ai.github.io/chatterbox_demopage/

HF space:
https://huggingface.co/spaces/ResembleAI/Chatterbox-Multilingual-TTS

VibeVoice

https://github.com/microsoft/VibeVoice

Клонирование голоса: ✅
Реалтайм: ❌
RTF: >1 для 7B модели

Большая модель, умеет клонировать голос, но о реалтайме с большой 7B моделью в базовом виде можно забыть.

HF:
https://huggingface.co/vibevoice/VibeVoice-7B
https://huggingface.co/vibevoice/VibeVoice-1.5B

Реалтайм реализация и подробности от Tensor Banana:
https://t.me/tensorbanana/1236

FishSpeech

https://github.com/fishaudio/fish-speech

Клонирование голоса: ✅
Реалтайм: ✅
RTF: 0.14 на rtx 4090 (по заявлению от авторов), не тестил

HF:
https://huggingface.co/fishaudio
https://huggingface.co/fishaudio/fish-speech-1.5

Silero

https://github.com/snakers4/silero-models

Клонирование голоса: ❌
Реалтайм: ✅
RTF: не тестил

Поддерживает много СНГ языков и акценты. Умеет в SSML.

Piper TTS

https://github.com/OHF-Voice/piper1-gpl

Клонирование голоса: ❌
Реалтайм: ✅
RTF: не записал

Очень маленькая и шустрая модель, умеет в русский, но не умеет клонировать голос. Пробовал завести с RVC, но достичь реалтайма не получилось (из-за RVC).

Демо:
https://rhasspy.github.io/piper-samples/demo.html

Подписывайтесь на Telegram – xVibeNot