Как создать аудиостатьи на вашем сайте и зачем это нужно

Подкасты и аудиокниги продолжают набирать популярность. Мы сами становимся активнее и мобильнее, а аудио — один из наиболее эффективных и простых форматов для восприятия контента. Оказывается, не только воспринимать, но и создавать аудиоконтент на своем сайте не так сложно.

Сооснователь сервиса Retell Сергей Баранов рассказывает, как превратить текстовый контент в аудио с помощью технологии озвучивания текста — Yandex SpeechKit в три шага. Вы тоже так можете.

С точки зрения интернет-издания подключение выглядит так:

Регистрация на сайте сервиса.
Указание адреса сайта и ссылки на RSS-ленту, которая и станет источником материалов для озвучивания.
Добавление кода плеера Retell на сайт.

Как создать аудиостатьи на вашем сайте и зачем это нужно

Всё! После этого все статьи, находящиеся в RSS, а также все появляющиеся на сайте тексты будут озвучены. Как видите, для изданий процесс сводится к трем простым шагам. А что же происходит внутри сервиса?

Из указанного изданием RSS-канала сервис получает тексты статей и отправляет их в интеллектуальную систему Retell, которая размечает текст, добавляя в него теги SSML (Speech Synthesis Markup Language). Это делается для того, чтобы после синтеза речь звучала не только максимально приятно для человеческого уха, но и в соответствии с требованиями изданий:

Выдерживать заданные интонационные паузы между абзацами, предложениями или знаками препинания.
Минимизировать ошибки с ударениями и неверным произношением, например, в фамилиях или названиях компаний.
Автоматически заменять аббревиатуры, сокращения и последовательности символов, создающие сложность для «произношения» искусственным интеллектом, например, математические формулы, ссылки на сайты и аккаунты в социальных сетях.

Мы работаем с разными онлайн-изданиями, с разной тематикой, поэтому качественный синтез речи, очень важен.

На Sports.ru с октября 2018-го уже развиваются собственные подкасты, к январю 2020-го у нас уже был подтвержденный спрос на аудио. Изучив разные форматы, применимые к нашей платформе, мы остановились на варианте с реализацией автоматического озвучивания новостей.
Чтобы внедрить и автоматически расставить плеер по всей экосистеме, понадобился всего один день разработчика. Хотя до эксперимента мы опасались, что это будет сложно. Во многом такая скорость – заслуга нашего партнера Retell
представитель Sports.ru

Для синтеза речи мы используем сервис Yandex SpeechKit. Нам нравится качество и высокая стабильность сервиса, предсказуемость. Мы сравниваем разные Text-to-Speech платформы, SpeechKit — самый быстрый синтез из всех, с которым мы работали.

По завершению подготовки текста к озвучиванию Retell формирует очередь запросов для отправки к API Yandex SpeechKit. В своем личном кабинете издания могут выбрать понравившийся им голос, скорость воспроизведения — эти настройки добавляются к запросам в виде параметров.

Retell посылает запрос на синтез речи и в ответ получает файл в формате LPCM, конвертирует его в нужный формат аудиофайла, например, в mp3. Затем все полученные аудио проходят постпродакшн-обработку на стороне Retell: добавляется эквалайзинг и звуковые эффекты, используется компрессия, лимитеры, удаляются шумы.

На выходе из постпродакшена аудиофайл размещается на серверах Retell. Когда пользователь откроет страницу с озвученной статьей, он увидит загруженный плеер Retell, а при клике на кнопку воспроизведения загрузится и начнет проигрываться соответствующая аудиостатья.

Кроме автоматического озвучивания издания могут индивидуально настроить сервис для каждого отдельного сайта. Уже отмечали, что настройке поддается выбор голоса для озвучивания и скорости воспроизведения. Вдобавок есть возможность задать внешний вид плеера, встроив его в дизайн страниц максимально нативно.

Поскольку плеер собирает данные о прослушивании статей, то издания в своем личном кабинете также получают доступ к статистике, которая, кстати, реализована на базе ClickHouse:

Среди прочих доступных для изданий функций есть и словарь, который помогает управлять ударениями в действительно сложных для озвучивания случаях. Если занести слово с нужным ударением в словарь единожды, оно будет звучать корректно во всех выпускаемых аудиостатьях.

Из последних нововведений: создание подборок и плейлистов, а также SSML-редактор, позволяющий редактировать текст для озвучивания без изменения текста статьи и задавать нужные паузы.

Вся команда Retell активно работает над развитием сервиса и его возможностей. Мы будем рады получить обратную связь: критику, советы, креативные идеи. И если нам удалось вас заинтересовать, то также можете ознакомиться с нашей предыдущей статьей на vc.ru, где мы описали наш путь от гипотезы до рабочего сервиса.

Подписывайтесь на блог Яндекс.Облака, чтобы узнавать еще больше новостей и историй об IT и бизнесе.

Другие истории партнеров и клиентов, которые активно читают наши подписчики:

#яндексоблако #speechkit #cloud #речевыетехнологии #аудио #медиа

Как создать аудиостатьи на вашем сайте и зачем это нужно

Как создается аудиостатья