Раньше был такой сайт на vercel - flashattn.dev
Но он умер, видимо год прокрутился и все
Билдить flash-attn самому больно, держите альтернативу: https://mjunya.com/flash-attention-prebuild-wheels/
Синтез речи, озвучка текста, голосовой ии, локальные решения и мой проект genvoice.ru
Раньше был такой сайт на vercel - flashattn.dev
Но он умер, видимо год прокрутился и все
Билдить flash-attn самому больно, держите альтернативу: https://mjunya.com/flash-attention-prebuild-wheels/
На первую сотню ушло 90 дней: 18 ноября - 16 февраля
На вторую 106 дней: 16 февраля - 2 июня
Клод говорит на "16 дней дольше (~18% медленнее)", а все потому что регулярно посты надо писать, а не вот это вот, пропадать на месяц.
А еще это 30-й пост из тех, которые подготовлены и написаны сначала в обсидиане, перечитаны и потом опубл…
Выше обещал рассказать про gpu сервер, так вот.
Сидел я значит где-то в начале января за пк и понял, что хочется иногда что-нибудь из моделек стартануть фоново, чтоб не забивать основную карту и с ней можно было экспериментировать дальше. Зная примерную цену аренды gpu (еще раз чекнул) - стало грустно. Выход один - собираем свою коробку.
Прошлая модель в опенсорсе от них была s1-mini и для русского языка была не очень. Новая моделька конечно получше, но и размером сильно больше. Умеет в русский и клонирование.
Духота
Пробили 100 подписчиков в тг! Ушло на это ровно 90 дней, с 18 ноября по 16 февраля.
Небольшие итоги:
Еще дней 10 назад пощупали в тг чате MOSS-TTS от OpenMOSS-Team, решил оформить в артефакт (пост).
Интересна тем, что это не одна модель, а пять чекпоинтов:
- реалтайм стриминг с клонированием
- оффлайн синтез на 1.7B и 8B
- генерация голоса по описанию (VoiceGenerator)
- генерация звуковых эффектов (SoundEffect)
Наконец-то добрался пощупать VibeVoice от Microsoft, флагман в open-source по размеру, а может и по качеству.
Релиз модели был еще в конце августа 2025, а уже 4 сентября 2025 репозитории с моделью удалили.
Причина:
VibeVoice is an open-source research framework intended to advance collaboration in the speech synthesis community. After re…
Сегодня релизнули веса Qwen3-TTS и там есть поддержка русского языка.
Полный список языков которые поддерживает модель:
- Китайский (Chinese)
- Английский (English
- Японский (Japanese)
- Корейский (Korean)
- Немецкий (German)
- Французский (French)
- Русский (Russian)
- Португальский (Portuguese)
- Испанский (Spanish)
- Итальянский (Italian)
Появилась еще одна tts с поддержкой русского языка. Построена поверх f5 с изменениями, отличия от f5 можно почитать в их paper: https://arxiv.org/abs/2601.04233
Поддерживает 10 языков:
- Chinese
- En…
Добавил поддержку Blackwell (50xx серия) архитектуры. Да, оказывается ее не было, и у меня не было девайса потестить, а теперь есть, но об этом будет отдельный пост.
Поправил немного бенчмарки, прогрев моделей, убрал логирование vram pytorch (не видит tensorrt/tensorrt-llm потребление, в итоге бесполезно).