Silero TTS v5 — бесплатный синтез речи с ИИ. Как интегрировать в свой проект

Недавно российская команда разработчиков выпустила пятую версию Silero TTS — библиотеки для преобразования текста в речь. Это не просто обновление, а значительный прорыв в производительности и качестве.

Суть проекта простая: вы пишете текст, система озвучивает его естественным голосом. Но вот что важно — всё это происходит локально, на вашем компьютере. Никакие облачные сервисы, никакие API-ключи, никаких платежей. Ваши данные остаются при вас.

В новой версии модели работают в 3-4 раза быстрее, чем в третьей версии, и в 1,5-2 раза быстрее, чем в четвёртой. Главное улучшение — добавилась автоматическая расстановка ударений в омографах. Это те слова, которые пишутся одинаково, но произносятся по-разному. Теперь система правильно различает "закупать" и "закупить", "дорога" в смысле пути и "дорога" как дорогой.

Для русского языка доступно пять голосов: aidar, baya, kseniya, xenia и eugene. Поддерживаются ещё 10+ языков. Требования к ресурсам минимальные — работает на обычном процессоре без видеокарты. На одном потоке CPU генерирует 37-42 секунды аудио в секунду, на четырех потоках достигает 100-110 секунд.

Система поддерживает SSML для полного управления просодией — вы можете менять скорость, тон, делать паузы, всё это прямо в коде. Проект полностью открыт на GitHub, код можно смотреть и модифицировать под себя.

Идеально подходит для озвучки видео, создания голосовых ботов, приложений для людей с нарушениями зрения, игр. Просто установите пакет и начните использовать. Разработчики создали инструмент, который решает реальные проблемы без лишних сложностей.

GitHub проект -

colab.research.google.com

Google Colab

Полезные контент в телеграмм канале EasyProger -

t.me

EasyProger