xVibeNot

+2
с 2025

vibe code - why not?

5 подписчиков
0 подписок

Появилась еще одна tts с поддержкой русского языка. Построена поверх f5 с изменениями, отличия от f5 можно почитать в их paper: https://arxiv.org/abs/2601.04233

Поддерживает 10 языков:
-…

Добавил поддержку Blackwell (50xx серия) архитектуры. Да, оказывается ее не было, и у меня не было девайса потестить, а теперь есть, но об этом будет отдельный пост.

Поправил немного бенчмарки, прогрев моделей, убрал логирование vram pytorch (не видит tensorrt/tensorrt-llm потребление, в итоге бесполезно).

Добавил поддержку ударений в FastCosyVoice.

Модель понимает юникод символ ударения `\u0301`. Выглядит это так: `замок` Но поскольку расставлять его неудобно, добавил общепринятый `+` перед ударной гласной, он автоматом конвертируется в "акут" (название символа) после ударной гласной.

1

Кажется, в этом году стало особенно модно делать всякие рекапы и итоги года.

А ещё мне этот год запомнился таким явлением как vibe coding - хоть сейчас это уже не так круто и все стали context engineer'ами, я всё же решил совместить эти штуки.

Сделал еще несколько апдейтов для FastCosyVoice, хочу немного подсветить:

Теперь можно установить проект через uv add git+, в pypi еще не знаю, имеет ли смысл публиковать, ведь код не столько библиотека, сколько тулинг под одну конкретную модель.

Выше я писал как получилось разогнать CosyVoice3 для реалтайм синтеза. Немного причесав эксперименты, собрал на гитхаб.

Отличия от оригинала:
- uv в качестве пакетного менеджера
- исправлены несколько тяжелых вычислений
- fp16 применяется к llm тоже, а не только к flow (DiT)
- исправлена конвертация в onnx + trt для flow
- поддержка tensorRT-…

Если взять инференс из коробки, то он получается не особо быстрый и не влезает в реалтайм:
https://github.com/FunAudioLLM/CosyVoice

Меня интересует именно стриминг режим, по…

Главные преимущества модели в качестве, это управление синтезом через промпт и специальные токены для кашля, смеха, вздохов и тд. Вместе с текстом для синтеза в модель надо подавать промпт, в формате:

{instruction}<|endofprompt|>{audio_transcription}

1

Выше я писал что возможно скоро дропнут CosyVoice 3 и вот этот день настал.

Что получаем:
- 9 языков, русский из коробки.
- Нормализация текста, умеет в цифры и символы (надо смотреть подробнее как это будет работать).
- Bi-Streaming - можно подавать текст на вход частями/чанками, на выходе получаем аудио по мере генерации. Это дает миним…

Перейдем к практике, вчера сел и финально пощупал основные TTS модельки, все гонял на rtx 3090, ниже результаты.

Fish Speech
А именно openaudio-s1-mini:
https://huggingface.co/fishaudio/openaudio-s1-mini
Накурсорить стриминг инференс не получилось, все вышло далеко от реалтайма, да и качество полученного аудио сомнительное.

Text-to-speech модели, которые теоретически скоро появятся:

Orpheus-TTS

Полный список всех актуальных open-source TTS, которые умеют в синтез на русском языке.


XTTS v2

1