{"id":14268,"url":"\/distributions\/14268\/click?bit=1&hash=1e3309842e8b07895e75261917827295839cd5d4d57d48f0ca524f3f535a7946","title":"\u0420\u0430\u0437\u0440\u0435\u0448\u0430\u0442\u044c \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0430\u043c \u0438\u0433\u0440\u0430\u0442\u044c \u043d\u0430 \u0440\u0430\u0431\u043e\u0447\u0435\u043c \u043c\u0435\u0441\u0442\u0435 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f71e1caf-7964-5525-98be-104bb436cb54"}

Yandex Cloud

28 авг 2020 28.08.2020

Как создать аудиостатьи на вашем сайте и зачем это нужно

Подкасты и аудиокниги продолжают набирать популярность. Мы сами становимся активнее и мобильнее, а аудио — один из наиболее эффективных и простых форматов для восприятия контента. Оказывается, не только воспринимать, но и создавать аудиоконтент на своем сайте не так сложно.

Сооснователь сервиса Retell Сергей Баранов рассказывает, как превратить текстовый контент в аудио с помощью технологии озвучивания текста — Yandex SpeechKit в три шага. Вы тоже так можете.

Как создается аудиостатья

С точки зрения интернет-издания подключение выглядит так:

Регистрация на сайте сервиса.
Указание адреса сайта и ссылки на RSS-ленту, которая и станет источником материалов для озвучивания.
Добавление кода плеера Retell на сайт.

Всё! После этого все статьи, находящиеся в RSS, а также все появляющиеся на сайте тексты будут озвучены. Как видите, для изданий процесс сводится к трем простым шагам. А что же происходит внутри сервиса?

Из указанного изданием RSS-канала сервис получает тексты статей и отправляет их в интеллектуальную систему Retell, которая размечает текст, добавляя в него теги SSML (Speech Synthesis Markup Language). Это делается для того, чтобы после синтеза речь звучала не только максимально приятно для человеческого уха, но и в соответствии с требованиями изданий:

Выдерживать заданные интонационные паузы между абзацами, предложениями или знаками препинания.
Минимизировать ошибки с ударениями и неверным произношением, например, в фамилиях или названиях компаний.
Автоматически заменять аббревиатуры, сокращения и последовательности символов, создающие сложность для «произношения» искусственным интеллектом, например, математические формулы, ссылки на сайты и аккаунты в социальных сетях.

Мы работаем с разными онлайн-изданиями, с разной тематикой, поэтому качественный синтез речи, очень важен.

На Sports.ru с октября 2018-го уже развиваются собственные подкасты, к январю 2020-го у нас уже был подтвержденный спрос на аудио. Изучив разные форматы, применимые к нашей платформе, мы остановились на варианте с реализацией автоматического озвучивания новостей.
Чтобы внедрить и автоматически расставить плеер по всей экосистеме, понадобился всего один день разработчика. Хотя до эксперимента мы опасались, что это будет сложно. Во многом такая скорость – заслуга нашего партнера Retell

представитель Sports.ru

Для синтеза речи мы используем сервис Yandex SpeechKit. Нам нравится качество и высокая стабильность сервиса, предсказуемость. Мы сравниваем разные Text-to-Speech платформы, SpeechKit — самый быстрый синтез из всех, с которым мы работали.

По завершению подготовки текста к озвучиванию Retell формирует очередь запросов для отправки к API Yandex SpeechKit. В своем личном кабинете издания могут выбрать понравившийся им голос, скорость воспроизведения — эти настройки добавляются к запросам в виде параметров.

Retell посылает запрос на синтез речи и в ответ получает файл в формате LPCM, конвертирует его в нужный формат аудиофайла, например, в mp3. Затем все полученные аудио проходят постпродакшн-обработку на стороне Retell: добавляется эквалайзинг и звуковые эффекты, используется компрессия, лимитеры, удаляются шумы.

На выходе из постпродакшена аудиофайл размещается на серверах Retell. Когда пользователь откроет страницу с озвученной статьей, он увидит загруженный плеер Retell, а при клике на кнопку воспроизведения загрузится и начнет проигрываться соответствующая аудиостатья.

Кроме автоматического озвучивания издания могут индивидуально настроить сервис для каждого отдельного сайта. Уже отмечали, что настройке поддается выбор голоса для озвучивания и скорости воспроизведения. Вдобавок есть возможность задать внешний вид плеера, встроив его в дизайн страниц максимально нативно.

Поскольку плеер собирает данные о прослушивании статей, то издания в своем личном кабинете также получают доступ к статистике, которая, кстати, реализована на базе ClickHouse:

Среди прочих доступных для изданий функций есть и словарь, который помогает управлять ударениями в действительно сложных для озвучивания случаях. Если занести слово с нужным ударением в словарь единожды, оно будет звучать корректно во всех выпускаемых аудиостатьях.

Из последних нововведений: создание подборок и плейлистов, а также SSML-редактор, позволяющий редактировать текст для озвучивания без изменения текста статьи и задавать нужные паузы.

Вся команда Retell активно работает над развитием сервиса и его возможностей. Мы будем рады получить обратную связь: критику, советы, креативные идеи. И если нам удалось вас заинтересовать, то также можете ознакомиться с нашей предыдущей статьей на vc.ru, где мы описали наш путь от гипотезы до рабочего сервиса.

Подписывайтесь на блог Яндекс.Облака, чтобы узнавать еще больше новостей и историй об IT и бизнесе.

Другие истории партнеров и клиентов, которые активно читают наши подписчики:

#яндексоблако #speechkit #cloud #речевыетехнологии #аудио #медиа

4 показа

2.9K открытий

{"id":341856,"url":"https:\/\/vc.ru\/yandex.cloud","name":"Yandex Cloud","avatar":"bcb1587e-f8f6-58fc-a761-4a311bf2bcbb","karma":null,"description":"Yandex Cloud \u2014 \u043d\u0430\u0434\u0451\u0436\u043d\u043e\u0435 \u043e\u0431\u043b\u0430\u043a\u043e \u0434\u043b\u044f \u0431\u0438\u0437\u043d\u0435\u0441\u0430. \u041d\u043e\u0432\u043e\u0441\u0442\u0438, \u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u0438 \u0438 \u043a\u0435\u0439\u0441\u044b \u2014 \u0440\u0430\u0441\u0441\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u043c \u043f\u0440\u043e \u043e\u0431\u043b\u0430\u0447\u043d\u044b\u0435 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438 \u0438 \u0442\u0435\u0445, \u043a\u0442\u043e \u0438\u0445 \u0441\u043e\u0437\u0434\u0430\u0451\u0442","isMe":false,"isSubscribed":false,"isNotificationsEnabled":false,"isShowMessengerButton":false,"isShowSubscribe":true,"hasBadge":true,"badgeType":"verified","badgeUuid":"1ee4281e-b189-6120-a381-4c857ffff841","badgeUrl":"https:\/\/vc.ru\/subsiteBadge\/1ee4281e-b189-6120-a381-4c857ffff841","hasVideoAvatar":false}

23 комментария

Написать комментарий...

Истории компаний

28.08.2020

Ответить

Развернуть ветку

Retell

28.08.2020

Всё бы так, но есть одно но: https://music.yandex.ru/album/10619065

Ответить

Развернуть ветку

Алексей Бобр

28.08.2020

Из-за форса этого, по моему мнению, дерьма я и ушёл с я.м на спотифай с бесспорным более отстойным генератором плейлистов последнего..

Ответить

Развернуть ветку

Dmitry Abramov

28.08.2020

Точно, Артемий нашёл подкасты там, где их не называют подкастами.

Поэтому Ютуб и сделал подписку с возможностью слушать при заблокированном экране :)

Ответить

Развернуть ветку

Михаил И.

28.08.2020

Кстати, а кто-нибудь видел сервис на Yandex SpeechKit для обратного процесса (перегона аудио в текст)? Я что-то не смог найти...

Ответить

Развернуть ветку

Nikita Tkachev

28.08.2020

В Yandex SpeechKit есть есть как text-to-speech, так и speech-to-text (ASR) https://cloud.yandex.ru/services/speechkit

Ответить

Развернуть ветку

Михаил И.

28.08.2020

Да, знаю, но это надо программить самому.. Вопрос как раз в том: написал ли кто-то уже сервис для пользователей? Сколько ни ищу (именно на Yandex SpeechKit) - не могу найти((

Ответить

Развернуть ветку

Albert V

28.08.2020

Подскажите, пожалуйста, как всем этим можно воспользоваться для озвучивания текстовых книг?

Ответить

Развернуть ветку

Dmitry Abramov

28.08.2020

Альберт, добрый день! Воспользуйтесь сервисом https://speechki.org Потребуется регистрация.

Ответить

Развернуть ветку

Dmitry Abramov

28.08.2020

Удобно за ручной несложной работой (бумажки перекладывать или что-то систематизировать) слушать аудио-контент

Ответить

Развернуть ветку

Retell

28.08.2020

Друзья, спасибо за ваши комментарии и вопросы. Будем крайне признательны, если подкините идей для новых функций и возможностей, как для изданий, так для читателей-слушателей ;)

Ответить

Развернуть ветку

Andrey Greenberg

29.08.2020

Для коммерческих сервисов идеи платные)

Ответить

Развернуть ветку

Retell

1.09.2020

За уникальную и полезную идею не грех и заплатить )
Предоплату не обещаем, но за действительно хорошие идеи и советы мы готовы дать 2 месяца бесплатного озвучивания вашего сайта (если он есть). Отправим промокод в личные сообщения ;)

Ответить

Развернуть ветку

Михаил Работов

28.08.2020

Кто-нибудь вообще пользуется этими аудио-версиями статей? Кто их слушает?

Ответить

Развернуть ветку

Vladislav Andreev

28.08.2020

Я пробовал как-то пару статей так послушать, но ментально проще пробежаться глазами по строчкам, чем слушать. Но вообще в этом есть удобство наверняка.

Ответить

Развернуть ветку

Retell

28.08.2020

Да, верно. Для беглого изучения материала будет быстрее пройтись по тексту глазами. Более того, не все публикации пригодны для озвучивания. Например, если в статье много важных графиков, иллюстраций, фотоматериалов.

Но наряду с этим есть много ситуаций, когда слушать удобнее: за рулем, во время пробежки, прогулки с собакой, во время приготовления пищи - кейсов много. Надо отметить, что Retell не направлен на замену чтения прослушиванием. Статистика говорит о том, что пользователи стали чаще возвращаться на сайт в те моменты, когда читать неудобно. Мы даем посетителям сайтов возможность получать информацию в удобном им формате в любое время.

Ответить

Развернуть ветку

Всвиторе

28.08.2020

Я пробовал пару раз, но к сожалению проблевался и на этом всё.
Самая большая проблема это интонации. Плюс бот не читает подписи к картинкам. Ух, чёт опять замутило.

Ответить

Развернуть ветку

Retell

28.08.2020

Согласны, что с вопросительными или восклицательными интонациями сейчас есть некоторые сложности, хотя в части таких случаев синтезированная речь уже звучит очень и очень хорошо. Активное развитие голосовых технологий ведет нас к безупречной речи, синтезированной ИИ.

С интонационными паузами мы уже работаем и в большинстве случаев справляемся успешно. Retell автоматически проставляет SSML разметку для более нативного звучания.

Что же касается подписей к картинкам - тут нет никакой сложности. Если RSS-канал издания включает в свой контент подписи к картинкам, то мы их озвучим также как и основной текст.

Ответить

Развернуть ветку

Retell

28.08.2020

Конечно, по нашей статистике — это сотни тысяч уникальных пользователей подключенных к нам онлайн-изданий.

Также есть кейс Sports.ru, который они публиковали на vc.ru в прошлом месяце. В нём они раскрывают некоторые цифры по статистике их издания. Ссылка на их статью https://vc.ru/media/143901-nashi-novosti-teper-slushayut-vse-rabotaet-avtomaticheski-my-bystro-sobrali-1-mln-proslushivaniy

Наши новости теперь слушают: все работает…

Внутри — подробнее о новом звучании Sports.ru и конкурс с призом.

vc.ru

Ответить

Развернуть ветку

Andrey Greenberg

28.08.2020

Подключение онлайн-изданий, как я понимаю, платное? А если сервис далёк от совершенства, то какой смысл статейникам или новостникам тратить средства на то, что никому не нужно...

Ответить

Развернуть ветку

Retell

28.08.2020

Андрей, всё верно, для онлайн-изданий сервис Retell платный.

Каждый месяц мы наблюдаем миллионы прослушиваний аудиостатей через наш сервис на подключенных к сервису сайтах. Поэтому мы точно знаем, что наш сервис нужен пользователям. А к совершенству мы стремимся, работая как над качеством озвучки, так и над полезными для изданий функциями.

Ответить

Развернуть ветку

Иннокентий

30.08.2020

Интересно, но порой кажется, что этот формат потихоньку исчерпывает себя. Их просто уже столько, что не знаешь, какой слушать, да и стоит ли оно того вообще

Ответить

Развернуть ветку

Retell

1.09.2020

Если общемировые тренды на аудио обойдут российский рынок стороной, то по всем прогнозам нас с вами ждет активнейшее развитие формата аудио и рост производства и потребления контента именно в аудиоформате.

Не исключаем, что у отечественного рынка может быть свой вектор развития, и аудио тут не приживется, но пока мы не видим и намека на это, как и на "исчерпание формата".

Ответить

Развернуть ветку

Написать комментарий...

20 комментариев

Раскрывать всегда