Робот София Silicon Valley TV seriesВ синтезе речи много чего происходит: на рынке есть большое число тулкитов, закрытых коммерческих решений за АПИ и стартапов из кремниевой долины, пытающихся сделать очередные аудио «дипфейки».Но при этом почему-то совсем нет готовых открытых решений, которые бы удовлетворяли минимальным критериям адекватности:Естественная речь и большая библиотека готовых голосов на пяти языках;Радикальная простота и минимализм, минимум зависимостей;Высокая скорость работы на на 1 потоке / ядре процессора;Не требует наличия видеокарты и команды специалистов;Не зависит от внешних сервисов и экосистем;Поддержка синтеза в разном качестве;Наличие уникальных голосов;Мы учли все эти моменты и бесплатно подарили комьюнити свое открытое некоммерческое решение. Да вы не ослышались. По причине его публичности мы не заостряем внимание на архитектуре и не фокусируемся на заранее выбранных примерах. Вы просто можете оценить и попробовать все сами пройдя по ссылкам ниже.colab.research.google.comGoogle Colaboratorygithub.comsnakers4/silero-modelsSilero Models: pre-trained speech-to-text, text-to-speech models and benchmarks made embarrassingly simple - snakers4/silero-modelsКачество и примерыДля оценки качества мы действовали просто:Cинтезировали примерно 200 новых файлов на одного спикера;Смешали с оригинальными аудио тех же спикеров (по сути сделав двойной слепой тест);Дали группе из 24 людей для оценки качества звучания по пятибалльной шкале;Для 8 килогерц и 16 килогерц оценки собирали по отдельности;| Спикер | Оригинал | Синтез | Отношение | | ------------- | ---------- | ---------- | --------- | | aidar_8khz | 4.67 (.45) | 4.52 (.55) | 96.8% | | baya_8khz | 4.52 (.57) | 4.25 (.76) | 94.0% | | kseniya_8khz | 4.80 (.40) | 4.54 (.60) | 94.5% | | aidar_16khz | 4.72 (.43) | 4.53 (.55) | 95.9% | | baya_16khz | 4.59 (.55) | 4.18 (.76) | 91.1% | | kseniya_16khz | 4.84 (.37) | 4.54 (.59) | 93.9% |Также можете послушать примеры ниже (нативный аудио-альбом на VC у меня почему-то выдает ошибки при загрузке) и большое количество примеров в папочках по ссылкам (1 2 3 4 5 6):soundcloud.comAidar Sample 00 by Alexander VeysovListen to Aidar Sample 00 by Alexander Veysov #np on #SoundCloudsoundcloud.comAidar Sample 01 by Alexander VeysovListen to Aidar Sample 01 by Alexander Veysov #np on #SoundCloudsoundcloud.comAidar Sample 02 by Alexander VeysovListen to Aidar Sample 02 by Alexander Veysov #np on #SoundCloudsoundcloud.comBaya Sample 00 by Alexander VeysovListen to Baya Sample 00 by Alexander Veysov #np on #SoundCloudsoundcloud.comBaya Sample 01 by Alexander VeysovListen to Baya Sample 01 by Alexander Veysov #np on #SoundCloudsoundcloud.comBaya Sample 02 by Alexander VeysovListen to Baya Sample 02 by Alexander Veysov #np on #SoundCloudsoundcloud.comKsenia Sample 00 by Alexander VeysovListen to Ksenia Sample 00 by Alexander Veysov #np on #SoundCloudsoundcloud.comKsenia Sample 01 by Alexander VeysovListen to Ksenia Sample 01 by Alexander Veysov #np on #SoundCloudsoundcloud.comKsenia Sample 02 by Alexander VeysovListen to Ksenia Sample 02 by Alexander Veysov #np on #SoundCloudМожно самому попробовать наш синтез в тетрадочке по этой ссылке:colab.research.google.comGoogle ColaboratoryДетальный анализ распределений из 37 403 оценок, которые поставили наши асессоры показал, что:В 60% случаев люди считают, что синтез не хуже оригинала по естественности;8 килогерц немного помогает скрыть ошибки синтеза;В 66% случаев люди не слышат разницы между аудио с частотой дискретизации в 8 килогерц и 16 килогерц;Бенчмарки по СкоростиСкорость и прожорливость по ресурсам является следующей важной характеристикой моделей. Для оценки скорости мы считаем такие метрики:RTF (Real Time Factor) - какую долю длительности аудио занимает синтез;RTS = 1 / RTF (Real Time Speed) - насколько синтез "быстрее" реального времени, величина обратная RTF;Мы снимали метрики на двух устройствах с помощью встроенных в PyTorch 1.8 утилит: CPU - Intel i7-6800K CPU @ 3.40GHz;GPU - 1080 Ti;Для модели на 16 килогерц получаются такие показатели (модель на 8 килогерц примерно на 25% быстрее):Оценка скорости моделей Автор статьиГолоса и языкиНа данный момент мы выложили 20 моделей:10 голосов на 5 языках;Для каждого спикера две модели - для 8 и 16 килогерц;Языки - русский (6 голосов), английский (1), немецкий (1), испанский (1) и французский (1);Особенностью русских моделей является то, что сейчас они требуют ручной простановки ударения и буквы ё, но в следующих релизах этот недостаток будет исправлен и модели сами научатся ставить ударения и буквы ё.Основные ограничения и подводные камниВ процессе тестирования моделей пользователи выявили следующие ограничения:Модели (пока еще) не умеют сами ставить ударения и букву ё. Это будет в следующем релизе;Модели не умеют в нормализацию чисел, написанных цифрами, и дат. Это сделано намеренно, так как по нашему мнению синтез не должен этого уметь и это задача "middleware" и мы не планируем включать это в синтез;Синтез не принимает целые книги или абзацы. В него нужно кормить по одному предложению. Но алгоритмы, на которых он основан, умеют работать с батчами данных, что по сути превращает недостаток в преимущество;Знаки препинания влияют на интонации, в конце предложения лучше ставить точку. Мы не планируем это менять;Философия, Лицензия и МотивацияКак авторы моделей, мы считаем следующие правила использования моделей справедливыми:Все модели нельзя использовать в коммерческих продуктах;Репозиторий опубликован под лицензией GNU A-GPL 3.0. На бумаге это не запрещает коммерческое использование, но по факту тяжело отыскать коммерческие решения с полностью открытым исходным кодом (чего требует эта лицензия);Если ваша цель - некоммерческое использование наших моделей во благо общества — мы будем рады помочь вам с интеграцией;Если вы планируете использование наших моделей в личных целях, то делитесь результатами своих экспериментов в репозитории;Дальнейшая РаботаМы планируем постоянно развивать и улучшать свое решение, в частности:Добавить автоматическую простановку ударения и буквы ё;Добавить поддержку изменения скорости и высоты голоса;Ускорить все в целом еще в 3-4 раза (а может и даже в 10);Возможно даже получится научить говорить наших спикеров на иностранных для них языках или проявлять эмоции; СкороговоркиИ в качестве бонуса, немного скороговорок.Русский язык:soundcloud.comAidar 16k Tongue Twister by Alexander VeysovListen to Aidar 16k Tongue Twister by Alexander Veysov #np on #SoundCloudsoundcloud.comBaya 16k Tongue Twister by Alexander VeysovListen to Baya 16k Tongue Twister by Alexander Veysov #np on #SoundCloudsoundcloud.comKsenia 16k Tongue Twister by Alexander VeysovListen to Ksenia 16k Tongue Twister by Alexander Veysov #np on #SoundCloudДругие языки:soundcloud.comLj 16k Tongue Twister by Alexander VeysovListen to Lj 16k Tongue Twister by Alexander Veysov #np on #SoundCloudsoundcloud.comTux 16k Tongue Twister by Alexander VeysovListen to Tux 16k Tongue Twister by Alexander Veysov #np on #SoundCloudsoundcloud.comGilles 16k Tongue Twister by Alexander VeysovListen to Gilles 16k Tongue Twister by Alexander Veysov #np on #SoundCloudsoundcloud.comThorsten 16k Tongue Twister by Alexander VeysovListen to Thorsten 16k Tongue Twister by Alexander Veysov #np on #SoundCloud
Имхо, лучшее, что есть сейчас на рынке опенсурс синтеза речи
Если закрыть глаза на некоторые моменты по качеству (и не хватает ударений и буквы ё), то может и не только опенсурс, а вообще
Комментарий недоступен
Вот тут есть что то около 700 синтезированных голосов, https://apihost.ru/voice наверно сейчас это самая большая говорилка. Авторы добавьте себя в этот сервис, в бесплатную версию, думаю после этого будет взрыв популярности.
Давно про эту Софию ничего не слышно
А можно подробнее о том, как потестировать на гугл.коллаб? (не технарь и что-то совсем запутался)
Писал тут подробнее на эту тему