{"id":14109,"url":"\/distributions\/14109\/click?bit=1&hash=8ff63cb2ea7116379d3c8d4b3d29f0c2823d18f07d1645b3e3c64ca8feb5a93f","title":"\u0417\u0434\u0435\u0441\u044c \u0432\u0441\u0435 \u2014 \u00ab\u0421\u0431\u0435\u0440\u00bb, \u00ab\u042f\u043d\u0434\u0435\u043a\u0441\u00bb, VK \u0438 Kaspersky","buttonText":"\u041f\u043e\u0434\u0440\u043e\u0431\u043d\u0435\u0435","imageUuid":"a31c737f-87af-5c24-b841-b9bf16fd1db1"}

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

В наших прошлых статьях про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Насколько интерфейс позволяет, прикрепляю пример звучания синтеза:

Больше примеров вы можете увидеть в более полной технической версии статьи на Хабре.

0
10 комментариев
Написать комментарий...
Рушан Натфуллин

Круто

Ответить
Развернуть ветку
Ярослав Белов

Превосходный результат! Авторы молодцы.

Ответить
Развернуть ветку
Sasha Lander

Александр, а когда планируется вывести продукт на рынок для обычных и пользователей? Я имею в виду платформу с интерфейсом для обычных пользователей?

Ответить
Развернуть ветку
Alexander Veysov
Автор

Если речь про b2c - то скорее всего никогда. Мы стараемся не работать с физиками на коммерческой основе.

В качестве пиара наверное будет что-то типа телеграм бота.

Ответить
Развернуть ветку
Sasha Lander

Ясно. Жалко. :(

Ответить
Развернуть ветку
Диктор Павел Константиновский

Александр, можно ли создать модель своего голоса? Для дальнейшего коммерческого использования.

Ответить
Развернуть ветку
Alexander Veysov
Автор

Да, можно. Напишите мне в телеграм, обсудим.

Ответить
Развернуть ветку
Вася Пражкин
Научили наши модели делать паузы

Между буквами? А зачем??

Ответить
Развернуть ветку
Alexander Veysov
Автор

Между словами

Ответить
Развернуть ветку
Вася Пражкин

Так у вас между буквами паузы, Вы что, не слышите?

Ответить
Развернуть ветку
7 комментариев
Раскрывать всегда
{"hash":"6d762cd3","params":{"id":"https%3A%2F%2Fvk.com%2Fvideo_ext.php%3Foid%3D-22522055%26id%3D456243063%26hd%3D2","service":3,"title":"\u0422\u043e\u043f-25 \u0441\u0442\u0430\u0440\u0442\u0430\u043f\u043e\u0432 Sber500 \u0432 \u044d\u0444\u0438\u0440\u0435","isLegacy":true,"isHidden":false}}