{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

В наших прошлых статьях про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Насколько интерфейс позволяет, прикрепляю пример звучания синтеза:

Больше примеров вы можете увидеть в более полной технической версии статьи на Хабре.

0
10 комментариев
Написать комментарий...
Рушан Натфуллин

Круто

Ответить
Развернуть ветку
Ярослав Белов

Превосходный результат! Авторы молодцы.

Ответить
Развернуть ветку
Sasha Lander

Александр, а когда планируется вывести продукт на рынок для обычных и пользователей? Я имею в виду платформу с интерфейсом для обычных пользователей?

Ответить
Развернуть ветку
Alexander Veysov
Автор

Если речь про b2c - то скорее всего никогда. Мы стараемся не работать с физиками на коммерческой основе.

В качестве пиара наверное будет что-то типа телеграм бота.

Ответить
Развернуть ветку
Sasha Lander

Ясно. Жалко. :(

Ответить
Развернуть ветку
Диктор Павел Константиновский

Александр, можно ли создать модель своего голоса? Для дальнейшего коммерческого использования.

Ответить
Развернуть ветку
Alexander Veysov
Автор

Да, можно. Напишите мне в телеграм, обсудим.

Ответить
Развернуть ветку
Вася Пражкин
Научили наши модели делать паузы

Между буквами? А зачем??

Ответить
Развернуть ветку
Alexander Veysov
Автор

Между словами

Ответить
Развернуть ветку
Вася Пражкин

Так у вас между буквами паузы, Вы что, не слышите?

Ответить
Развернуть ветку
7 комментариев
Раскрывать всегда