Как создать аудиостатьи на вашем сайте и зачем это нужно

Подкасты и аудиокниги продолжают набирать популярность. Мы сами становимся активнее и мобильнее, а аудио — один из наиболее эффективных и простых форматов для восприятия контента. Оказывается, не только воспринимать, но и создавать аудиоконтент на своем сайте не так сложно.

Сооснователь сервиса Retell Сергей Баранов рассказывает, как превратить текстовый контент в аудио с помощью технологии озвучивания текста — Yandex SpeechKit в три шага. Вы тоже так можете.

Как создается аудиостатья

С точки зрения интернет-издания подключение выглядит так:

  • Регистрация на сайте сервиса.
  • Указание адреса сайта и ссылки на RSS-ленту, которая и станет источником материалов для озвучивания.
  • Добавление кода плеера Retell на сайт.

Всё! После этого все статьи, находящиеся в RSS, а также все появляющиеся на сайте тексты будут озвучены. Как видите, для изданий процесс сводится к трем простым шагам. А что же происходит внутри сервиса?

Из указанного изданием RSS-канала сервис получает тексты статей и отправляет их в интеллектуальную систему Retell, которая размечает текст, добавляя в него теги SSML (Speech Synthesis Markup Language). Это делается для того, чтобы после синтеза речь звучала не только максимально приятно для человеческого уха, но и в соответствии с требованиями изданий:

  • Выдерживать заданные интонационные паузы между абзацами, предложениями или знаками препинания.
  • Минимизировать ошибки с ударениями и неверным произношением, например, в фамилиях или названиях компаний.
  • Автоматически заменять аббревиатуры, сокращения и последовательности символов, создающие сложность для «произношения» искусственным интеллектом, например, математические формулы, ссылки на сайты и аккаунты в социальных сетях.

Мы работаем с разными онлайн-изданиями, с разной тематикой, поэтому качественный синтез речи, очень важен.

На Sports.ru с октября 2018-го уже развиваются собственные подкасты, к январю 2020-го у нас уже был подтвержденный спрос на аудио. Изучив разные форматы, применимые к нашей платформе, мы остановились на варианте с реализацией автоматического озвучивания новостей.

Чтобы внедрить и автоматически расставить плеер по всей экосистеме, понадобился всего один день разработчика. Хотя до эксперимента мы опасались, что это будет сложно. Во многом такая скорость – заслуга нашего партнера Retell

представитель Sports.ru

Для синтеза речи мы используем сервис Yandex SpeechKit. Нам нравится качество и высокая стабильность сервиса, предсказуемость. Мы сравниваем разные Text-to-Speech платформы, SpeechKit — самый быстрый синтез из всех, с которым мы работали.

По завершению подготовки текста к озвучиванию Retell формирует очередь запросов для отправки к API Yandex SpeechKit. В своем личном кабинете издания могут выбрать понравившийся им голос, скорость воспроизведения — эти настройки добавляются к запросам в виде параметров.

Retell посылает запрос на синтез речи и в ответ получает файл в формате LPCM, конвертирует его в нужный формат аудиофайла, например, в mp3. Затем все полученные аудио проходят постпродакшн-обработку на стороне Retell: добавляется эквалайзинг и звуковые эффекты, используется компрессия, лимитеры, удаляются шумы.

На выходе из постпродакшена аудиофайл размещается на серверах Retell. Когда пользователь откроет страницу с озвученной статьей, он увидит загруженный плеер Retell, а при клике на кнопку воспроизведения загрузится и начнет проигрываться соответствующая аудиостатья.

Кроме автоматического озвучивания издания могут индивидуально настроить сервис для каждого отдельного сайта. Уже отмечали, что настройке поддается выбор голоса для озвучивания и скорости воспроизведения. Вдобавок есть возможность задать внешний вид плеера, встроив его в дизайн страниц максимально нативно.

Поскольку плеер собирает данные о прослушивании статей, то издания в своем личном кабинете также получают доступ к статистике, которая, кстати, реализована на базе ClickHouse:

Среди прочих доступных для изданий функций есть и словарь, который помогает управлять ударениями в действительно сложных для озвучивания случаях. Если занести слово с нужным ударением в словарь единожды, оно будет звучать корректно во всех выпускаемых аудиостатьях.

Из последних нововведений: создание подборок и плейлистов, а также SSML-редактор, позволяющий редактировать текст для озвучивания без изменения текста статьи и задавать нужные паузы.

Вся команда Retell активно работает над развитием сервиса и его возможностей. Мы будем рады получить обратную связь: критику, советы, креативные идеи. И если нам удалось вас заинтересовать, то также можете ознакомиться с нашей предыдущей статьей на vc.ru, где мы описали наш путь от гипотезы до рабочего сервиса.

Подписывайтесь на блог Яндекс.Облака, чтобы узнавать еще больше новостей и историй об IT и бизнесе.

Другие истории партнеров и клиентов, которые активно читают наши подписчики:

0
23 комментария
Написать комментарий...
Истории компаний
Ответить
Развернуть ветку
Retell

Всё бы так, но есть одно но: https://music.yandex.ru/album/10619065

Ответить
Развернуть ветку
Алексей Бобр

Из-за форса этого, по моему мнению, дерьма я и ушёл с я.м на спотифай с бесспорным более отстойным генератором плейлистов последнего..

Ответить
Развернуть ветку
Dmitry Abramov

Точно, Артемий нашёл подкасты там, где их не называют подкастами.

Поэтому Ютуб и сделал подписку с возможностью слушать при заблокированном экране :)

Ответить
Развернуть ветку
Михаил И.

Кстати, а кто-нибудь видел сервис на Yandex SpeechKit для обратного процесса (перегона аудио в текст)? Я что-то не смог найти...

Ответить
Развернуть ветку
Nikita Tkachev

В Yandex SpeechKit есть есть как text-to-speech, так и speech-to-text (ASR) https://cloud.yandex.ru/services/speechkit

Ответить
Развернуть ветку
Михаил И.

Да, знаю, но это надо программить самому.. Вопрос как раз в том: написал ли кто-то уже сервис для пользователей? Сколько ни ищу (именно на Yandex SpeechKit) - не могу найти(( 

Ответить
Развернуть ветку
Albert V

Подскажите, пожалуйста, как всем этим можно воспользоваться для озвучивания текстовых книг?

Ответить
Развернуть ветку
Dmitry Abramov

Альберт, добрый день! Воспользуйтесь сервисом https://speechki.org Потребуется регистрация.

Ответить
Развернуть ветку
Dmitry Abramov

Удобно за ручной несложной работой (бумажки перекладывать или что-то систематизировать) слушать аудио-контент

Ответить
Развернуть ветку
Retell

Друзья, спасибо за ваши комментарии и вопросы. Будем крайне признательны, если подкините идей для новых функций и возможностей, как для изданий, так для читателей-слушателей ;)

Ответить
Развернуть ветку
Andrey Greenberg

Для коммерческих сервисов идеи платные)

Ответить
Развернуть ветку
Retell

За уникальную и полезную идею не грех и заплатить )
Предоплату не обещаем, но за действительно хорошие идеи и советы мы готовы дать 2 месяца бесплатного озвучивания вашего сайта (если он есть). Отправим промокод в личные сообщения ;)

Ответить
Развернуть ветку
Михаил Работов

Кто-нибудь вообще пользуется этими аудио-версиями статей? Кто их слушает?

Ответить
Развернуть ветку
Vladislav Andreev

Я пробовал как-то пару статей так послушать, но ментально проще пробежаться глазами по строчкам, чем слушать. Но вообще в этом есть удобство наверняка.

Ответить
Развернуть ветку
Retell

Да, верно. Для беглого изучения материала будет быстрее пройтись по тексту глазами. Более того, не все публикации пригодны для озвучивания. Например, если в статье много важных графиков, иллюстраций, фотоматериалов.

Но наряду с этим есть много ситуаций, когда слушать удобнее: за рулем, во время пробежки, прогулки с собакой, во время приготовления пищи - кейсов много. Надо отметить, что Retell не направлен на замену чтения прослушиванием. Статистика говорит о том, что пользователи стали чаще возвращаться на сайт в те моменты, когда читать неудобно. Мы даем посетителям сайтов возможность получать информацию в удобном им формате в любое время.

Ответить
Развернуть ветку
Всвиторе

Я пробовал пару раз, но к сожалению проблевался и на этом всё. 
Самая большая проблема это интонации. Плюс бот не читает подписи к картинкам. Ух, чёт опять замутило.

Ответить
Развернуть ветку
Retell

Согласны, что с вопросительными или восклицательными интонациями сейчас есть некоторые сложности, хотя в части таких случаев синтезированная речь уже звучит очень и очень хорошо. Активное развитие голосовых технологий ведет нас к безупречной речи, синтезированной ИИ.

С интонационными паузами мы уже работаем и в большинстве случаев справляемся успешно. Retell автоматически проставляет SSML разметку для более нативного звучания.

Что же касается подписей к картинкам - тут нет никакой сложности. Если RSS-канал издания включает в свой контент подписи к картинкам, то мы их озвучим также как и основной текст.

Ответить
Развернуть ветку
Retell

Конечно, по нашей статистике — это сотни тысяч уникальных пользователей подключенных к нам онлайн-изданий.

Также есть кейс Sports.ru, который они публиковали на vc.ru в прошлом месяце. В нём они раскрывают некоторые цифры по статистике их издания. Ссылка на их статью https://vc.ru/media/143901-nashi-novosti-teper-slushayut-vse-rabotaet-avtomaticheski-my-bystro-sobrali-1-mln-proslushivaniy

Ответить
Развернуть ветку
Andrey Greenberg

Подключение онлайн-изданий, как я понимаю, платное? А если сервис далёк от совершенства, то какой смысл статейникам или новостникам тратить средства на то, что никому не нужно...

Ответить
Развернуть ветку
Retell

Андрей, всё верно, для онлайн-изданий сервис Retell платный.

Каждый месяц мы наблюдаем миллионы прослушиваний аудиостатей через наш сервис на подключенных к сервису сайтах. Поэтому мы точно знаем, что наш сервис нужен пользователям. А к совершенству мы стремимся, работая как над качеством озвучки, так и над полезными для изданий функциями.

Ответить
Развернуть ветку
Иннокентий

Интересно, но порой кажется, что этот формат потихоньку исчерпывает себя. Их просто уже столько, что не знаешь, какой слушать, да и стоит ли оно того вообще

Ответить
Развернуть ветку
Retell

Если общемировые тренды на аудио обойдут российский рынок стороной, то по всем прогнозам нас с вами ждет активнейшее развитие формата аудио и рост производства и потребления контента именно в аудиоформате. 

Не исключаем, что у отечественного рынка может быть свой вектор развития, и аудио тут не приживется, но пока мы не видим и намека на это, как и на "исчерпание формата".

Ответить
Развернуть ветку
20 комментариев
Раскрывать всегда