Синтез речи - xVibeNot

+3
с 2025

Синтез речи, озвучка текста, голосовой ии, локальные решения и мой проект genvoice.ru

9 подписчиков
0 подписок

Раньше был такой сайт на vercel - flashattn.dev
Но он умер, видимо год прокрутился и все

Билдить flash-attn самому больно, держите альтернативу: https://mjunya.com/flash-attention-prebuild-wheels/

На первую сотню ушло 90 дней: 18 ноября - 16 февраля
На вторую 106 дней: 16 февраля - 2 июня
Клод говорит на "16 дней дольше (~18% медленнее)", а все потому что регулярно посты надо писать, а не вот это вот, пропадать на месяц.

А еще это 30-й пост из тех, которые подготовлены и написаны сначала в обсидиане, перечитаны и потом опубл…

И так, у нас новый релиз - OmniVoice.

Внутри:

Выше обещал рассказать про gpu сервер, так вот.
Сидел я значит где-то в начале января за пк и понял, что хочется иногда что-нибудь из моделек стартануть фоново, чтоб не забивать основную карту и с ней можно было экспериментировать дальше. Зная примерную цену аренды gpu (еще раз чекнул) - стало грустно. Выход один - собираем свою коробку.

Прошлая модель в опенсорсе от них была s1-mini и для русского языка была не очень. Новая моделька конечно получше, но и размером сильно больше. Умеет в русский и клонирование.

Духота

Пробили 100 подписчиков в тг! Ушло на это ровно 90 дней, с 18 ноября по 16 февраля.

Небольшие итоги:

Еще дней 10 назад пощупали в тг чате MOSS-TTS от OpenMOSS-Team, решил оформить в артефакт (пост).

Интересна тем, что это не одна модель, а пять чекпоинтов:
- реалтайм стриминг с клонированием
- оффлайн синтез на 1.7B и 8B
- генерация голоса по описанию (VoiceGenerator)
- генерация звуковых эффектов (SoundEffect)

Наконец-то добрался пощупать VibeVoice от Microsoft, флагман в open-source по размеру, а может и по качеству.

Релиз модели был еще в конце августа 2025, а уже 4 сентября 2025 репозитории с моделью удалили.
Причина:
VibeVoice is an open-source research framework intended to advance collaboration in the speech synthesis community. After re…

1

Сегодня релизнули веса Qwen3-TTS и там есть поддержка русского языка.

Полный список языков которые поддерживает модель:
- Китайский (Chinese)
- Английский (English
- Японский (Japanese)
- Корейский (Korean)
- Немецкий (German)
- Французский (French)
- Русский (Russian)
- Португальский (Portuguese)
- Испанский (Spanish)
- Итальянский (Italian)

Появилась еще одна tts с поддержкой русского языка. Построена поверх f5 с изменениями, отличия от f5 можно почитать в их paper: https://arxiv.org/abs/2601.04233

Поддерживает 10 языков:
- Chinese
- En…

Добавил поддержку Blackwell (50xx серия) архитектуры. Да, оказывается ее не было, и у меня не было девайса потестить, а теперь есть, но об этом будет отдельный пост.

Поправил немного бенчмарки, прогрев моделей, убрал логирование vram pytorch (не видит tensorrt/tensorrt-llm потребление, в итоге бесполезно).