Retell: как мы озвучили 40 тысяч статей онлайн-СМИ

Привет! Я — Сергей Баранов, со-основатель сервиса Retell. И я не хочу, чтобы вы читали эту статью. Почему? Потому что её можно слушать!

<i>Аудитория <b><a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.sports.ru%2Fboxing%2F1084717190.html&postId=133381" rel="nofollow noreferrer noopener" target="_blank">Sports.ru</a> </b>слушает статьи через наш сервис</i>
Аудитория Sports.ru слушает статьи через наш сервис

С чего всё началось

В конце 2018 года мы обратили внимание на нарастающий тренд, связанный с аудио на сайтах интернет-изданий по всему миру. Тогда этот формат потребления контента был крайне экспериментальным: то появлялся на сайтах, то пропадал.

Для себя мы отметили, что все найденные нами издания с аудиоверсиями своих публикаций реализовывали это по-разному. Часть из них ушли в разработку собственных программных решений, другая часть использовала сторонние плагины, такие как Amazon Polly для WordPress, а были еще и такие издания, кто вручную озвучивал тексты через демо-стенды Text-to-Speech-платформ и также вручную размещал файлы со сгенерированным аудио внутри своих материалов.

Последний вариант — это та ещё рутина. Ради эксперимента попробуйте измерить время создания хотя бы одной статьи, например, через демо-стенд «Яндекс Speechkit». Для корректности прибавьте еще несколько минут на размещение получившегося аудио на самом сайте.

Измерили? А теперь представьте, что вы публикуете от 20 до 100 статей ежедневно. На долго ли вас хватит?

«Тут нужна автоматизация», — подумали мы и создали MVP нашего сервиса. Первая версия включала в себя:

  • Виджет-плеер для прослушивания аудио на сайте.
  • Подключение через внедрение в статьи специальной микроразметки.
  • Один «дикторский» голос.
  • Хранение аудио на наших серверах без возможности скачивания и размещения на сторонних площадках.
  • Вебхук для создания собственного навыка для «Яндекс.Алисы».
  • Старт сотрудничества после подписания двустороннего договора, с оплатой по счету.

Не путайте, Retell — это не платформа Text-to-Speech, конкурирующая с TTS от корпораций, а сервис для онлайн-изданий, позволяющий в автоматическом режиме озвучивать статьи и публиковать созданные на их основе подкасты.

Создание продукта

Блок с преимуществами на созданном лендинге
Блок с преимуществами на созданном лендинге

Несмотря на не слишком богатую функциональную «начинку» MVP, мы сразу же запустили простенький лендинг и разместили несколько рекламных постов, чтобы оценить спрос и собрать обратную связь.

В первую же неделю через лендинг мы собрали более 20, а всего с момента запуска более 200, заявок и стали общаться с изданиями с целью понимания их потребностей и фреймворка принятия решения о подключении к нашему сервису.

В процессе общения мы обнаружили много проблем прошлой концепции и решили:

  • Отказаться от внедрения сложной микроразметки статей в пользу подключения по ссылке на RSS-канал и упростить процесс подключения, в целом.
  • Добавить личный кабинет издания, где отображать собираемую статистику по прослушиванию статей.
  • В этом же ЛК позволять: выбирать голос, гибко управлять тарифом и производить оплату, как картой, так и через самостоятельное формирование счета.
  • Реализовать механизм создания плейлистов и подборок аудиостатей.
  • Для каждого отдельного сайта дать возможность создания собственного словаря правильного произношения фамилий, названий, аббревиатур, сокращений.
  • Поддерживать работу сервиса в мобильных приложениях и на AMP-страницах.
  • Снизить стоимость сервиса.

Становясь лучше

Полученная от изданий информация дала пищу для серьезных размышлений о пути развития сервиса, воплотившихся в следующие изменения:

Подключение

Подключиться теперь очень просто: указать ссылку на RSS, подтвердить права на сайт, разместить плеер на страницах сайта.

Retell: как мы озвучили 40 тысяч статей онлайн-СМИ

Личный кабинет

Релиз личного кабинета издания также не заставил себя долго ждать, и многие «полезности» увидели свет. Среди них есть настройка голоса озвучивания, добавление виджета мобильной версии, гибкая настройка тарифа и оплата:

Retell: как мы озвучили 40 тысяч статей онлайн-СМИ

Стали собирать и отображать статистику прослушивания статей, но не просто общее количество, а с разбивкой по точкам контакта с аудиторией.

Retell: как мы озвучили 40 тысяч статей онлайн-СМИ

Словарь

Добавили и словарь, который помогает изданиям управлять ударениями в сложных для озвучивания случаях.

Retell: как мы озвучили 40 тысяч статей онлайн-СМИ

И это далеко не полный список того, что уже есть в нашем сервисе, не говоря о том, что несколько потрясающих и крайне полезных для изданий функций находятся в стадии активной разработки прямо сейчас. Но пока обойдемся без спойлеров ;)

«Роли озвучивали»

Retell собрал в своем каталоге голосов более десяти отборных голосов от разных TTS-платформ. Вот несколько сэмплов:

Мы активно и постоянно мониторим рынок и при появлении новых качественных голосовых моделей сразу же добавляем их в свой каталог.

Не всё так просто

Во время испытания беты мы столкнулись с проблемой, связанной с турбо-страницами «Яндекса». Одному из наших первых клиентов пришло уведомление от «Яндекс.Вебмастера» о критической ошибке:

Retell: как мы озвучили 40 тысяч статей онлайн-СМИ

Дальнейшее общение со службой поддержки «Яндекса» не очень и помогло:

Адрес сайта и номер тикета умышленно изменены
Адрес сайта и номер тикета умышленно изменены

В предложенном «Яндексом» варианте каждому изданию пришлось бы подключаться к нашему API для получения ссылки на звуковой файл и переписывать механизм формирования RSS для турбо-страниц. Что шло вразрез основной идее нашего сервиса, основанной на исключительной простоте добавления аудио.

Разумеется, мы спросили про возможность установки js-виджета в турбо-страницы, но «увы»:

Retell: как мы озвучили 40 тысяч статей онлайн-СМИ

По факту же эта проблема могла бы убить наш сервис, так как выбор, перед которыми были поставлены издания, был бы такой:

Озвучивание статей или турбо-страницы (и весь трафик с них).

Очевидно, что здесь выбор был бы не в нашу пользу, но у нас очень крутая команда и в ней есть волшебники. И исключительно за счет их магических чар мы смогли решить эту проблему и теперь все подключенные к Retell сайты могут не беспокоиться о блокировке их турбо-страниц.

Так что если вы решите делать своё техническое решение для озвучивания статей или воспользоваться альтернативным сервисом, знайте — ваши турбо-страницы могут забанить.

Что будет дальше

Мы активно заняты развитием Retell. В прошлом месяце мы тотально обновили ядро сервиса и переработали архитектуру для его более стабильной работы, снижения нагрузки и себестоимости.

За счёт этого мы смогли в несколько раз снизить стоимость сервиса, и теперь для всех новых клиентов активны новые, более дешевые тарифы. Конечно, про старых клиентов мы тоже не забыли и перевели их на выгодные тарифы автоматически.

41568
статей было озвучено через Retell (актуально на 24 июня 2020)

И сегодня мы делаем официальный и публичный запуск сервиса Retell. В числе early adopters нашего сервиса уже есть интернет-издания:

  • Sports.ru
  • Dni.ru
  • ProUfu.ru
  • SuperOmsk.ru
  • ProVladimir.ru
  • Avtocod.ru
  • Novostroy.ru

и с десяток других классных сайтов.

И если вы хотели бы попробовать аудиоформат применительно к вашей аудитории, будем рады видеть вас в числе наших клиентов, а если вы являетесь непосредственным потребителем-читателем, перешлите вашим любимым изданиям ссылку на наш сервис. Будем признательны!

Хотели бы, чтобы статьи на ваших любимых ресурсах были доступны в аудиоформате?
Да
Нет
Пф, они уже доступны в аудио

P. S. А ещё, мы будем благодарны, если в комментариях к этой статье вы предложите свои идеи, как сделать Retell лучше как для конечных пользователей, так и для онлайн-изданий. Спасибо!

P. P. S Ого! Вы дочитали нашу статью до конца. В знак благодарности за ваш неподдельный интерес, держите специальный промокод на 30% скидку: VC.RU

2222
72 комментария

Беда, конечно, ну робот же...
Ту же Алису можно потерпеть при озвучении 5-10 сек., например, прогноза погоды. А слушать большой текст постоянно невозможно.

Основные проблемы:
- отсутствие динамики в голосе (интонационной и темповой)
- отсутствие смысловых и речевых пауз (как следствие "слепливание" слов)
- отсутствие смыслового подъема/опускания интонации, когда это необходимо
- неправильные ударения (к слову, вроде это вручную сейчас исправляют)

в итоге:
скучное, гундосенье на одной ноте и постоянное напряжение слушателя на распознавании текста.

Если провести аналогию с созданием виртуальных МУЗЫКАЛЬНЫХ инструментов, то нужны т.н. round-robin и layers, когда голос будет "плавать" по интонации и темпу, причем "правильно" плавать. Т.е. нейронная сетей должно быть 2, как минимум: та которая генерит голос и та, которая управляет интонацией относительно смысла текста (т.е. нужно распознавать ХОТЯ БЫ части предложений, вопрос/восклицательный знак, многоточие)

В общем удачи и успехов в этой нелегкой сфере!

11

Олег, спасибо, очень ценное замечание.
Это именно тот подход, который мы используем. Две нейронные сети решают эту задачу гораздо эффективнее (+ ещё одна вспомогательная). Надеюсь удивить вас лично и наших клиентов результатами в ближайшее время, ведь наша система обучается и с каждым днём становится лучше. :)

4

2016 год  - "количество учтенных слепых и слабовидящих в нашей стране составляет 218 тысяч человек, из них абсолютно слепых — 103 тысячи. Ежегодно в России число лиц впервые ставшими инвалидами из-за нарушения зрения составляет около 45 тысяч"

Это была присказка. Сама сказка у меня такая
- недавно я делал версию сайта для слабовидящих. Для этого я тестировал его через скринридер.

Вы не поверите, как плохо звучит скринридер по сравнению с этим роботом. Но судя по отчетам, тем, кому нужно читать - делают еще хуже, по нашим меркам. Они увеличивают скорость в несколько раз и слушают тексты на таком ускорении, на котором для нас все сливается.

Да, робот должен быть хорошим, как человек.

Но человек может слушать и плохого робота. Полировка качества голосовых роботов - это необходимая фишка для расширения аудитории, но ядру, кому надо слушать - это пофиг.

Качество голосовых роботов переоценено и высшая планка нужна для такого широкого аудитории, которая большую часть времени не будет ими пользоваться.

Ну еще банкам и прочим обзвонщикам - им, да, нужна имитация.

2

мне лично приятно слушать такой голос, без эмоций и спокойно

1

PS: вот тут есть пример, в центре статьи - видео с голосовым ассистентом на скорости 1000 слов в минуту

https://habr.com/ru/post/461469/

Первый голос очень нудный, а вот второй чертовски хорош, прям как живой. 

2

У всех очень разное восприятие. К тому же, в статье у нас показаны примеры только 3-х голосов. Всего же издания могут выбрать из 11 голосовых моделей в своем личном кабинете, и мы стараемся увеличить этот выбор.

1