xVibeNot (@id4918115) — Блог на vc.ru

VibeVoice все еще лучшая модель в опенсорсе для синтеза речи?

Наконец-то добрался пощупать VibeVoice от Microsoft, флагман в open-source по размеру, а может и по качеству.

Релиз модели был еще в конце августа 2025, а уже 4 сентября 2025 репозитории с моделью удалили.
Причина:
VibeVoice is an open-source research framework intended to advance collaboration in the speech synthesis community. After re…

xVibeNot

28 янв

Clawdbot, уже Moltbot - Хайп! Хайп? Хайп...

clawdbot.com

xVibeNot

23 янв

Qwen3-TTS в open-source и с поддержкой русского языка

Сегодня релизнули веса Qwen3-TTS и там есть поддержка русского языка.

Полный список языков которые поддерживает модель:
- Китайский (Chinese)
- Английский (English
- Японский (Japanese)
- Корейский (Korean)
- Немецкий (German)
- Французский (French)
- Русский (Russian)
- Португальский (Portuguese)
- Испанский (Spanish)
- Итальянский (Italian)

xVibeNot

18 янв

LEMAS TTS - новая модель синтеза речи, поддерживающая русский язык

Появилась еще одна tts с поддержкой русского языка. Построена поверх f5 с изменениями, отличия от f5 можно почитать в их paper: https://arxiv.org/abs/2601.04233

Поддерживает 10 языков:
-…

xVibeNot

14 янв

FastCosyVoice - Blackwell

Добавил поддержку Blackwell (50xx серия) архитектуры. Да, оказывается ее не было, и у меня не было девайса потестить, а теперь есть, но об этом будет отдельный пост.

Поправил немного бенчмарки, прогрев моделей, убрал логирование vram pytorch (не видит tensorrt/tensorrt-llm потребление, в итоге бесполезно).

xVibeNot

8 янв

CosyVoice TTS ударения в русском языке

Добавил поддержку ударений в FastCosyVoice.

Модель понимает юникод символ ударения `\u0301`. Выглядит это так: `замок` Но поскольку расставлять его неудобно, добавил общепринятый `+` перед ударной гласной, он автоматом конвертируется в "акут" (название символа) после ударной гласной.

xVibeNot

Личный опыт

30.12.2025

🎄 Telegram Chat Recap 2025

Кажется, в этом году стало особенно модно делать всякие рекапы и итоги года.

А ещё мне этот год запомнился таким явлением как vibe coding - хоть сейчас это уже не так круто и все стали context engineer'ами, я всё же решил совместить эти штуки.

xVibeNot

29.12.2025

Апдейт FastCosyVoice

Сделал еще несколько апдейтов для FastCosyVoice, хочу немного подсветить:

Теперь можно установить проект через uv add git+, в pypi еще не знаю, имеет ли смысл публиковать, ведь код не столько библиотека, сколько тулинг под одну конкретную модель.

xVibeNot

25.12.2025

FastCosyVoice - ускоренный инференс для CosyVoice3

Выше я писал как получилось разогнать CosyVoice3 для реалтайм синтеза. Немного причесав эксперименты, собрал на гитхаб.

Отличия от оригинала:
- uv в качестве пакетного менеджера
- исправлены несколько тяжелых вычислений
- fp16 применяется к llm тоже, а не только к flow (DiT)
- исправлена конвертация в onnx + trt для flow
- поддержка tensorRT-…

xVibeNot

19.12.2025

CosyVoice 3 ускоряем инференс

Если взять инференс из коробки, то он получается не особо быстрый и не влезает в реалтайм:
https://github.com/FunAudioLLM/CosyVoice

Меня интересует именно стриминг режим, по…

xVibeNot

17.12.2025

Особенности CosyVoice3, новая TTS с поддержкой русского языка

Главные преимущества модели в качестве, это управление синтезом через промпт и специальные токены для кашля, смеха, вздохов и тд. Вместе с текстом для синтеза в модель надо подавать промпт, в формате:

{instruction}<|endofprompt|>{audio_transcription}

xVibeNot

15.12.2025

CosyVoice 3 - новая реалтайм TTS с поддержкой русского языка

Выше я писал что возможно скоро дропнут CosyVoice 3 и вот этот день настал.

Что получаем:
- 9 языков, русский из коробки.
- Нормализация текста, умеет в цифры и символы (надо смотреть подробнее как это будет работать).
- Bi-Streaming - можно подавать текст на вход частями/чанками, на выходе получаем аудио по мере генерации. Это дает миним…