Silero: качественный, быстрый и доступный синтез речи для всех

В синтезе речи много чего происходит: на рынке есть большое число тулкитов, закрытых коммерческих решений за АПИ и стартапов из кремниевой долины, пытающихся сделать очередные аудио «дипфейки».

Но при этом почему-то совсем нет готовых открытых решений, которые бы удовлетворяли минимальным критериям адекватности:

Естественная речь и большая библиотека готовых голосов на пяти языках;
Радикальная простота и минимализм, минимум зависимостей;
Высокая скорость работы на на 1 потоке / ядре процессора;
Не требует наличия видеокарты и команды специалистов;
Не зависит от внешних сервисов и экосистем;
Поддержка синтеза в разном качестве;
Наличие уникальных голосов;

Мы учли все эти моменты и бесплатно подарили комьюнити свое открытое некоммерческое решение. Да вы не ослышались. По причине его публичности мы не заостряем внимание на архитектуре и не фокусируемся на заранее выбранных примерах. Вы просто можете оценить и попробовать все сами пройдя по ссылкам ниже.

colab.research.google.com

Google Colaboratory

github.com

snakers4/silero-models

Для оценки качества мы действовали просто:

Cинтезировали примерно 200 новых файлов на одного спикера;
Смешали с оригинальными аудио тех же спикеров (по сути сделав двойной слепой тест);
Дали группе из 24 людей для оценки качества звучания по пятибалльной шкале;
Для 8 килогерц и 16 килогерц оценки собирали по отдельности;

| Спикер | Оригинал | Синтез | Отношение | | ------------- | ---------- | ---------- | --------- | | aidar_8khz | 4.67 (.45) | 4.52 (.55) | 96.8% | | baya_8khz | 4.52 (.57) | 4.25 (.76) | 94.0% | | kseniya_8khz | 4.80 (.40) | 4.54 (.60) | 94.5% | | aidar_16khz | 4.72 (.43) | 4.53 (.55) | 95.9% | | baya_16khz | 4.59 (.55) | 4.18 (.76) | 91.1% | | kseniya_16khz | 4.84 (.37) | 4.54 (.59) | 93.9% |

Также можете послушать примеры ниже (нативный аудио-альбом на VC у меня почему-то выдает ошибки при загрузке) и большое количество примеров в папочках по ссылкам (1 2 3 4 5 6):

Silero: качественный, быстрый и доступный синтез речи для всех

Качество и примеры

Бенчмарки по Скорости

Голоса и языки

Основные ограничения и подводные камни

Философия, Лицензия и Мотивация

Дальнейшая Работа

Скороговорки