Как создать аудиостатьи на вашем сайте и зачем это нужно
Подкасты и аудиокниги продолжают набирать популярность. Мы сами становимся активнее и мобильнее, а аудио — один из наиболее эффективных и простых форматов для восприятия контента. Оказывается, не только воспринимать, но и создавать аудиоконтент на своем сайте не так сложно.
Сооснователь сервиса Retell Сергей Баранов рассказывает, как превратить текстовый контент в аудио с помощью технологии озвучивания текста — Yandex SpeechKit в три шага. Вы тоже так можете.
Как создается аудиостатья
С точки зрения интернет-издания подключение выглядит так:
- Регистрация на сайте сервиса.
- Указание адреса сайта и ссылки на RSS-ленту, которая и станет источником материалов для озвучивания.
- Добавление кода плеера Retell на сайт.
Всё! После этого все статьи, находящиеся в RSS, а также все появляющиеся на сайте тексты будут озвучены. Как видите, для изданий процесс сводится к трем простым шагам. А что же происходит внутри сервиса?
Из указанного изданием RSS-канала сервис получает тексты статей и отправляет их в интеллектуальную систему Retell, которая размечает текст, добавляя в него теги SSML (Speech Synthesis Markup Language). Это делается для того, чтобы после синтеза речь звучала не только максимально приятно для человеческого уха, но и в соответствии с требованиями изданий:
- Выдерживать заданные интонационные паузы между абзацами, предложениями или знаками препинания.
- Минимизировать ошибки с ударениями и неверным произношением, например, в фамилиях или названиях компаний.
- Автоматически заменять аббревиатуры, сокращения и последовательности символов, создающие сложность для «произношения» искусственным интеллектом, например, математические формулы, ссылки на сайты и аккаунты в социальных сетях.
Мы работаем с разными онлайн-изданиями, с разной тематикой, поэтому качественный синтез речи, очень важен.
Для синтеза речи мы используем сервис Yandex SpeechKit. Нам нравится качество и высокая стабильность сервиса, предсказуемость. Мы сравниваем разные Text-to-Speech платформы, SpeechKit — самый быстрый синтез из всех, с которым мы работали.
По завершению подготовки текста к озвучиванию Retell формирует очередь запросов для отправки к API Yandex SpeechKit. В своем личном кабинете издания могут выбрать понравившийся им голос, скорость воспроизведения — эти настройки добавляются к запросам в виде параметров.
Retell посылает запрос на синтез речи и в ответ получает файл в формате LPCM, конвертирует его в нужный формат аудиофайла, например, в mp3. Затем все полученные аудио проходят постпродакшн-обработку на стороне Retell: добавляется эквалайзинг и звуковые эффекты, используется компрессия, лимитеры, удаляются шумы.
На выходе из постпродакшена аудиофайл размещается на серверах Retell. Когда пользователь откроет страницу с озвученной статьей, он увидит загруженный плеер Retell, а при клике на кнопку воспроизведения загрузится и начнет проигрываться соответствующая аудиостатья.
Кроме автоматического озвучивания издания могут индивидуально настроить сервис для каждого отдельного сайта. Уже отмечали, что настройке поддается выбор голоса для озвучивания и скорости воспроизведения. Вдобавок есть возможность задать внешний вид плеера, встроив его в дизайн страниц максимально нативно.
Поскольку плеер собирает данные о прослушивании статей, то издания в своем личном кабинете также получают доступ к статистике, которая, кстати, реализована на базе ClickHouse:
Среди прочих доступных для изданий функций есть и словарь, который помогает управлять ударениями в действительно сложных для озвучивания случаях. Если занести слово с нужным ударением в словарь единожды, оно будет звучать корректно во всех выпускаемых аудиостатьях.
Из последних нововведений: создание подборок и плейлистов, а также SSML-редактор, позволяющий редактировать текст для озвучивания без изменения текста статьи и задавать нужные паузы.
Вся команда Retell активно работает над развитием сервиса и его возможностей. Мы будем рады получить обратную связь: критику, советы, креативные идеи. И если нам удалось вас заинтересовать, то также можете ознакомиться с нашей предыдущей статьей на vc.ru, где мы описали наш путь от гипотезы до рабочего сервиса.
Подписывайтесь на блог Яндекс.Облака, чтобы узнавать еще больше новостей и историй об IT и бизнесе.
Другие истории партнеров и клиентов, которые активно читают наши подписчики:
Всё бы так, но есть одно но: https://music.yandex.ru/album/10619065
Из-за форса этого, по моему мнению, дерьма я и ушёл с я.м на спотифай с бесспорным более отстойным генератором плейлистов последнего..
Точно, Артемий нашёл подкасты там, где их не называют подкастами.
Поэтому Ютуб и сделал подписку с возможностью слушать при заблокированном экране :)
Кстати, а кто-нибудь видел сервис на Yandex SpeechKit для обратного процесса (перегона аудио в текст)? Я что-то не смог найти...
В Yandex SpeechKit есть есть как text-to-speech, так и speech-to-text (ASR) https://cloud.yandex.ru/services/speechkit
Да, знаю, но это надо программить самому.. Вопрос как раз в том: написал ли кто-то уже сервис для пользователей? Сколько ни ищу (именно на Yandex SpeechKit) - не могу найти((
Подскажите, пожалуйста, как всем этим можно воспользоваться для озвучивания текстовых книг?
Альберт, добрый день! Воспользуйтесь сервисом https://speechki.org Потребуется регистрация.
Удобно за ручной несложной работой (бумажки перекладывать или что-то систематизировать) слушать аудио-контент
Друзья, спасибо за ваши комментарии и вопросы. Будем крайне признательны, если подкините идей для новых функций и возможностей, как для изданий, так для читателей-слушателей ;)
Для коммерческих сервисов идеи платные)
За уникальную и полезную идею не грех и заплатить )
Предоплату не обещаем, но за действительно хорошие идеи и советы мы готовы дать 2 месяца бесплатного озвучивания вашего сайта (если он есть). Отправим промокод в личные сообщения ;)
Кто-нибудь вообще пользуется этими аудио-версиями статей? Кто их слушает?
Я пробовал как-то пару статей так послушать, но ментально проще пробежаться глазами по строчкам, чем слушать. Но вообще в этом есть удобство наверняка.
Да, верно. Для беглого изучения материала будет быстрее пройтись по тексту глазами. Более того, не все публикации пригодны для озвучивания. Например, если в статье много важных графиков, иллюстраций, фотоматериалов.
Но наряду с этим есть много ситуаций, когда слушать удобнее: за рулем, во время пробежки, прогулки с собакой, во время приготовления пищи - кейсов много. Надо отметить, что Retell не направлен на замену чтения прослушиванием. Статистика говорит о том, что пользователи стали чаще возвращаться на сайт в те моменты, когда читать неудобно. Мы даем посетителям сайтов возможность получать информацию в удобном им формате в любое время.
Я пробовал пару раз, но к сожалению проблевался и на этом всё.
Самая большая проблема это интонации. Плюс бот не читает подписи к картинкам. Ух, чёт опять замутило.
Согласны, что с вопросительными или восклицательными интонациями сейчас есть некоторые сложности, хотя в части таких случаев синтезированная речь уже звучит очень и очень хорошо. Активное развитие голосовых технологий ведет нас к безупречной речи, синтезированной ИИ.
С интонационными паузами мы уже работаем и в большинстве случаев справляемся успешно. Retell автоматически проставляет SSML разметку для более нативного звучания.
Что же касается подписей к картинкам - тут нет никакой сложности. Если RSS-канал издания включает в свой контент подписи к картинкам, то мы их озвучим также как и основной текст.
Конечно, по нашей статистике — это сотни тысяч уникальных пользователей подключенных к нам онлайн-изданий.
Также есть кейс Sports.ru, который они публиковали на vc.ru в прошлом месяце. В нём они раскрывают некоторые цифры по статистике их издания. Ссылка на их статью https://vc.ru/media/143901-nashi-novosti-teper-slushayut-vse-rabotaet-avtomaticheski-my-bystro-sobrali-1-mln-proslushivaniy
Подключение онлайн-изданий, как я понимаю, платное? А если сервис далёк от совершенства, то какой смысл статейникам или новостникам тратить средства на то, что никому не нужно...
Андрей, всё верно, для онлайн-изданий сервис Retell платный.
Каждый месяц мы наблюдаем миллионы прослушиваний аудиостатей через наш сервис на подключенных к сервису сайтах. Поэтому мы точно знаем, что наш сервис нужен пользователям. А к совершенству мы стремимся, работая как над качеством озвучки, так и над полезными для изданий функциями.
Интересно, но порой кажется, что этот формат потихоньку исчерпывает себя. Их просто уже столько, что не знаешь, какой слушать, да и стоит ли оно того вообще
Если общемировые тренды на аудио обойдут российский рынок стороной, то по всем прогнозам нас с вами ждет активнейшее развитие формата аудио и рост производства и потребления контента именно в аудиоформате.
Не исключаем, что у отечественного рынка может быть свой вектор развития, и аудио тут не приживется, но пока мы не видим и намека на это, как и на "исчерпание формата".