{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

В наших прошлых статьях про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Насколько интерфейс позволяет, прикрепляю пример звучания синтеза:

Больше примеров вы можете увидеть в более полной технической версии статьи на Хабре.

0
10 комментариев
Написать комментарий...
Рушан Натфуллин

Круто

Ответить
Развернуть ветку
Ярослав Белов

Превосходный результат! Авторы молодцы.

Ответить
Развернуть ветку
Sasha Lander

Александр, а когда планируется вывести продукт на рынок для обычных и пользователей? Я имею в виду платформу с интерфейсом для обычных пользователей?

Ответить
Развернуть ветку
Alexander Veysov
Автор

Если речь про b2c - то скорее всего никогда. Мы стараемся не работать с физиками на коммерческой основе.

В качестве пиара наверное будет что-то типа телеграм бота.

Ответить
Развернуть ветку
Sasha Lander

Ясно. Жалко. :(

Ответить
Развернуть ветку
Диктор Павел Константиновский

Александр, можно ли создать модель своего голоса? Для дальнейшего коммерческого использования.

Ответить
Развернуть ветку
Alexander Veysov
Автор

Да, можно. Напишите мне в телеграм, обсудим.

Ответить
Развернуть ветку
Вася Пражкин
Научили наши модели делать паузы

Между буквами? А зачем??

Ответить
Развернуть ветку
Alexander Veysov
Автор

Между словами

Ответить
Развернуть ветку
Вася Пражкин

Так у вас между буквами паузы, Вы что, не слышите?

Ответить
Развернуть ветку
7 комментариев
Раскрывать всегда