{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Alexander Veysov

13 апр 2022 13.04.2022

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

В наших прошлых статьях про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

Снизили размер модели в 2 раза;
Научили наши модели делать паузы;
Добавили один высококачественный голос (и бесконечное число случайных);
Ускорили наши модели где-то примерно в 10 раз (!);
Упаковали всех спикеров одного языка в одну модель;
Наши модели теперь могут принимать на вход даже целые абзацы текста;
Добавили функции контроля скорости и высоты речи через SSML;
Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Насколько интерфейс позволяет, прикрепляю пример звучания синтеза:

Больше примеров вы можете увидеть в более полной технической версии статьи на Хабре.

55 показов

312 открытий

10 комментариев

Написать комментарий...

Рушан Натфуллин

13.04.2022

Круто

Ответить

Развернуть ветку

Ярослав Белов

14.04.2022

Превосходный результат! Авторы молодцы.

Ответить

Развернуть ветку

Sasha Lander

14.04.2022

Александр, а когда планируется вывести продукт на рынок для обычных и пользователей? Я имею в виду платформу с интерфейсом для обычных пользователей?

Ответить

Развернуть ветку

Alexander Veysov

14.04.2022 Автор

Если речь про b2c - то скорее всего никогда. Мы стараемся не работать с физиками на коммерческой основе.

В качестве пиара наверное будет что-то типа телеграм бота.

Ответить

Развернуть ветку

Sasha Lander

14.04.2022

Ясно. Жалко. :(

Ответить

Развернуть ветку

Диктор Павел Константиновский

14.04.2022

Александр, можно ли создать модель своего голоса? Для дальнейшего коммерческого использования.

Ответить

Развернуть ветку

Alexander Veysov

15.04.2022 Автор

Да, можно. Напишите мне в телеграм, обсудим.

Ответить

Развернуть ветку

Вася Пражкин

14.04.2022

Научили наши модели делать паузы

Между буквами? А зачем??

Ответить

Развернуть ветку

Alexander Veysov

15.04.2022 Автор

Между словами

Ответить

Развернуть ветку

Вася Пражкин

15.04.2022

Так у вас между буквами паузы, Вы что, не слышите?

Ответить

Развернуть ветку

Написать комментарий...

7 комментариев

Раскрывать всегда