Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

В наших прошлых статьях про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Насколько интерфейс позволяет, прикрепляю пример звучания синтеза:

Больше примеров вы можете увидеть в более полной технической версии статьи на Хабре.

99
10 комментариев

Превосходный результат! Авторы молодцы.

1

Александр, а когда планируется вывести продукт на рынок для обычных и пользователей? Я имею в виду платформу с интерфейсом для обычных пользователей?

1

Если речь про b2c - то скорее всего никогда. Мы стараемся не работать с физиками на коммерческой основе.

В качестве пиара наверное будет что-то типа телеграм бота.

Александр, можно ли создать модель своего голоса? Для дальнейшего коммерческого использования.

1

Да, можно. Напишите мне в телеграм, обсудим.

Научили наши модели делать паузыМежду буквами? А зачем??