Появилась еще одна tts с поддержкой русского языка. Построена поверх f5 с изменениями, отличия от f5 можно почитать в их paper: https://arxiv.org/abs/2601.04233
Поддерживает 10 языков:
-…
vibe code - why not?
Появилась еще одна tts с поддержкой русского языка. Построена поверх f5 с изменениями, отличия от f5 можно почитать в их paper: https://arxiv.org/abs/2601.04233
Поддерживает 10 языков:
-…
Добавил поддержку Blackwell (50xx серия) архитектуры. Да, оказывается ее не было, и у меня не было девайса потестить, а теперь есть, но об этом будет отдельный пост.
Поправил немного бенчмарки, прогрев моделей, убрал логирование vram pytorch (не видит tensorrt/tensorrt-llm потребление, в итоге бесполезно).
Добавил поддержку ударений в FastCosyVoice.
Модель понимает юникод символ ударения `\u0301`. Выглядит это так: `замок` Но поскольку расставлять его неудобно, добавил общепринятый `+` перед ударной гласной, он автоматом конвертируется в "акут" (название символа) после ударной гласной.
Кажется, в этом году стало особенно модно делать всякие рекапы и итоги года.
А ещё мне этот год запомнился таким явлением как vibe coding - хоть сейчас это уже не так круто и все стали context engineer'ами, я всё же решил совместить эти штуки.
Сделал еще несколько апдейтов для FastCosyVoice, хочу немного подсветить:
Теперь можно установить проект через uv add git+, в pypi еще не знаю, имеет ли смысл публиковать, ведь код не столько библиотека, сколько тулинг под одну конкретную модель.
Выше я писал как получилось разогнать CosyVoice3 для реалтайм синтеза. Немного причесав эксперименты, собрал на гитхаб.
Отличия от оригинала:
- uv в качестве пакетного менеджера
- исправлены несколько тяжелых вычислений
- fp16 применяется к llm тоже, а не только к flow (DiT)
- исправлена конвертация в onnx + trt для flow
- поддержка tensorRT-…
Если взять инференс из коробки, то он получается не особо быстрый и не влезает в реалтайм:
https://github.com/FunAudioLLM/CosyVoice
Меня интересует именно стриминг режим, по…
Главные преимущества модели в качестве, это управление синтезом через промпт и специальные токены для кашля, смеха, вздохов и тд. Вместе с текстом для синтеза в модель надо подавать промпт, в формате:
{instruction}<|endofprompt|>{audio_transcription}
Выше я писал что возможно скоро дропнут CosyVoice 3 и вот этот день настал.
Что получаем:
- 9 языков, русский из коробки.
- Нормализация текста, умеет в цифры и символы (надо смотреть подробнее как это будет работать).
- Bi-Streaming - можно подавать текст на вход частями/чанками, на выходе получаем аудио по мере генерации. Это дает миним…
Перейдем к практике, вчера сел и финально пощупал основные TTS модельки, все гонял на rtx 3090, ниже результаты.
Fish Speech
А именно openaudio-s1-mini:
https://huggingface.co/fishaudio/openaudio-s1-mini
Накурсорить стриминг инференс не получилось, все вышло далеко от реалтайма, да и качество полученного аудио сомнительное.
Полный список всех актуальных open-source TTS, которые умеют в синтез на русском языке.
XTTS v2