Retell: как мы озвучили 40 тысяч статей онлайн-СМИ

Привет! Я — Сергей Баранов, со-основатель сервиса Retell. И я не хочу, чтобы вы читали эту статью. Почему? Потому что её можно слушать!

Аудитория Sports.ru слушает статьи через наш сервис

С чего всё началось

В конце 2018 года мы обратили внимание на нарастающий тренд, связанный с аудио на сайтах интернет-изданий по всему миру. Тогда этот формат потребления контента был крайне экспериментальным: то появлялся на сайтах, то пропадал.

Для себя мы отметили, что все найденные нами издания с аудиоверсиями своих публикаций реализовывали это по-разному. Часть из них ушли в разработку собственных программных решений, другая часть использовала сторонние плагины, такие как Amazon Polly для WordPress, а были еще и такие издания, кто вручную озвучивал тексты через демо-стенды Text-to-Speech-платформ и также вручную размещал файлы со сгенерированным аудио внутри своих материалов.

Последний вариант — это та ещё рутина. Ради эксперимента попробуйте измерить время создания хотя бы одной статьи, например, через демо-стенд «Яндекс Speechkit». Для корректности прибавьте еще несколько минут на размещение получившегося аудио на самом сайте.

Измерили? А теперь представьте, что вы публикуете от 20 до 100 статей ежедневно. На долго ли вас хватит?

«Тут нужна автоматизация», — подумали мы и создали MVP нашего сервиса. Первая версия включала в себя:

  • Виджет-плеер для прослушивания аудио на сайте.
  • Подключение через внедрение в статьи специальной микроразметки.
  • Один «дикторский» голос.
  • Хранение аудио на наших серверах без возможности скачивания и размещения на сторонних площадках.
  • Вебхук для создания собственного навыка для «Яндекс.Алисы».
  • Старт сотрудничества после подписания двустороннего договора, с оплатой по счету.

Не путайте, Retell — это не платформа Text-to-Speech, конкурирующая с TTS от корпораций, а сервис для онлайн-изданий, позволяющий в автоматическом режиме озвучивать статьи и публиковать созданные на их основе подкасты.

Создание продукта

Блок с преимуществами на созданном лендинге

Несмотря на не слишком богатую функциональную «начинку» MVP, мы сразу же запустили простенький лендинг и разместили несколько рекламных постов, чтобы оценить спрос и собрать обратную связь.

В первую же неделю через лендинг мы собрали более 20, а всего с момента запуска более 200, заявок и стали общаться с изданиями с целью понимания их потребностей и фреймворка принятия решения о подключении к нашему сервису.

В процессе общения мы обнаружили много проблем прошлой концепции и решили:

  • Отказаться от внедрения сложной микроразметки статей в пользу подключения по ссылке на RSS-канал и упростить процесс подключения, в целом.
  • Добавить личный кабинет издания, где отображать собираемую статистику по прослушиванию статей.
  • В этом же ЛК позволять: выбирать голос, гибко управлять тарифом и производить оплату, как картой, так и через самостоятельное формирование счета.
  • Реализовать механизм создания плейлистов и подборок аудиостатей.
  • Для каждого отдельного сайта дать возможность создания собственного словаря правильного произношения фамилий, названий, аббревиатур, сокращений.
  • Поддерживать работу сервиса в мобильных приложениях и на AMP-страницах.
  • Снизить стоимость сервиса.

Становясь лучше

Полученная от изданий информация дала пищу для серьезных размышлений о пути развития сервиса, воплотившихся в следующие изменения:

Подключение

Подключиться теперь очень просто: указать ссылку на RSS, подтвердить права на сайт, разместить плеер на страницах сайта.

Личный кабинет

Релиз личного кабинета издания также не заставил себя долго ждать, и многие «полезности» увидели свет. Среди них есть настройка голоса озвучивания, добавление виджета мобильной версии, гибкая настройка тарифа и оплата:

Стали собирать и отображать статистику прослушивания статей, но не просто общее количество, а с разбивкой по точкам контакта с аудиторией.

Словарь

Добавили и словарь, который помогает изданиям управлять ударениями в сложных для озвучивания случаях.

И это далеко не полный список того, что уже есть в нашем сервисе, не говоря о том, что несколько потрясающих и крайне полезных для изданий функций находятся в стадии активной разработки прямо сейчас. Но пока обойдемся без спойлеров ;)

«Роли озвучивали»

Retell собрал в своем каталоге голосов более десяти отборных голосов от разных TTS-платформ. Вот несколько сэмплов:

Мы активно и постоянно мониторим рынок и при появлении новых качественных голосовых моделей сразу же добавляем их в свой каталог.

Не всё так просто

Во время испытания беты мы столкнулись с проблемой, связанной с турбо-страницами «Яндекса». Одному из наших первых клиентов пришло уведомление от «Яндекс.Вебмастера» о критической ошибке:

Дальнейшее общение со службой поддержки «Яндекса» не очень и помогло:

Адрес сайта и номер тикета умышленно изменены

В предложенном «Яндексом» варианте каждому изданию пришлось бы подключаться к нашему API для получения ссылки на звуковой файл и переписывать механизм формирования RSS для турбо-страниц. Что шло вразрез основной идее нашего сервиса, основанной на исключительной простоте добавления аудио.

Разумеется, мы спросили про возможность установки js-виджета в турбо-страницы, но «увы»:

По факту же эта проблема могла бы убить наш сервис, так как выбор, перед которыми были поставлены издания, был бы такой:

Озвучивание статей или турбо-страницы (и весь трафик с них).

Очевидно, что здесь выбор был бы не в нашу пользу, но у нас очень крутая команда и в ней есть волшебники. И исключительно за счет их магических чар мы смогли решить эту проблему и теперь все подключенные к Retell сайты могут не беспокоиться о блокировке их турбо-страниц.

Так что если вы решите делать своё техническое решение для озвучивания статей или воспользоваться альтернативным сервисом, знайте — ваши турбо-страницы могут забанить.

Что будет дальше

Мы активно заняты развитием Retell. В прошлом месяце мы тотально обновили ядро сервиса и переработали архитектуру для его более стабильной работы, снижения нагрузки и себестоимости.

За счёт этого мы смогли в несколько раз снизить стоимость сервиса, и теперь для всех новых клиентов активны новые, более дешевые тарифы. Конечно, про старых клиентов мы тоже не забыли и перевели их на выгодные тарифы автоматически.

41568
статей было озвучено через Retell (актуально на 24 июня 2020)

И сегодня мы делаем официальный и публичный запуск сервиса Retell. В числе early adopters нашего сервиса уже есть интернет-издания:

  • Sports.ru
  • Dni.ru
  • ProUfu.ru
  • SuperOmsk.ru
  • ProVladimir.ru
  • Avtocod.ru
  • Novostroy.ru

и с десяток других классных сайтов.

И если вы хотели бы попробовать аудиоформат применительно к вашей аудитории, будем рады видеть вас в числе наших клиентов, а если вы являетесь непосредственным потребителем-читателем, перешлите вашим любимым изданиям ссылку на наш сервис. Будем признательны!

Хотели бы, чтобы статьи на ваших любимых ресурсах были доступны в аудиоформате?
Да
Нет
Пф, они уже доступны в аудио
Показать результаты
Переголосовать
Проголосовать

P. S. А ещё, мы будем благодарны, если в комментариях к этой статье вы предложите свои идеи, как сделать Retell лучше как для конечных пользователей, так и для онлайн-изданий. Спасибо!

P. P. S Ого! Вы дочитали нашу статью до конца. В знак благодарности за ваш неподдельный интерес, держите специальный промокод на 30% скидку: VC.RU

0
72 комментария
Написать комментарий...
Олег Качанко

Беда, конечно, ну робот же...
Ту же Алису можно потерпеть при озвучении 5-10 сек., например, прогноза погоды. А слушать большой текст постоянно невозможно.

Основные проблемы:
- отсутствие динамики в голосе (интонационной и темповой)
- отсутствие смысловых и речевых пауз (как следствие "слепливание" слов)
- отсутствие смыслового подъема/опускания интонации, когда это необходимо
- неправильные ударения (к слову, вроде это вручную сейчас исправляют)

в итоге:
скучное, гундосенье на одной ноте и постоянное напряжение слушателя на распознавании текста.

Если провести аналогию с созданием виртуальных МУЗЫКАЛЬНЫХ инструментов, то нужны т.н. round-robin и layers, когда голос будет "плавать" по интонации и темпу, причем "правильно" плавать. Т.е. нейронная сетей должно быть 2, как минимум: та которая генерит голос и та, которая управляет интонацией относительно смысла текста (т.е. нужно распознавать ХОТЯ БЫ части предложений, вопрос/восклицательный знак, многоточие)

В общем удачи и успехов в этой нелегкой сфере!

Ответить
Развернуть ветку
Retell
Автор

Олег, спасибо, очень ценное замечание.
Это именно тот подход, который мы используем. Две нейронные сети решают эту задачу гораздо эффективнее (+ ещё одна вспомогательная). Надеюсь удивить вас лично и наших клиентов результатами в ближайшее время, ведь наша система обучается и с каждым днём становится лучше. :)

Ответить
Развернуть ветку
3 комментария
Сергей Токарев

2016 год  - "количество учтенных слепых и слабовидящих в нашей стране составляет 218 тысяч человек, из них абсолютно слепых — 103 тысячи. Ежегодно в России число лиц впервые ставшими инвалидами из-за нарушения зрения составляет около 45 тысяч"

Это была присказка. Сама сказка у меня такая
- недавно я делал версию сайта для слабовидящих. Для этого я тестировал его через скринридер.

Вы не поверите, как плохо звучит скринридер по сравнению с этим роботом. Но судя по отчетам, тем, кому нужно читать - делают еще хуже, по нашим меркам. Они увеличивают скорость в несколько раз и слушают тексты на таком ускорении, на котором для нас все сливается.

Да, робот должен быть хорошим, как человек.

Но человек может слушать и плохого робота. Полировка качества голосовых роботов - это необходимая фишка для расширения аудитории, но ядру, кому надо слушать - это пофиг.

Качество голосовых роботов переоценено и высшая планка нужна для такого широкого аудитории, которая большую часть времени не будет ими пользоваться.

Ну еще банкам и прочим обзвонщикам - им, да, нужна имитация.

Ответить
Развернуть ветку
6 комментариев
Sabit Sugirov

мне лично приятно слушать такой голос, без эмоций и спокойно

Ответить
Развернуть ветку
1 комментарий
Сергей Токарев

PS: вот тут есть пример, в центре статьи - видео с голосовым ассистентом на скорости 1000 слов в минуту

https://habr.com/ru/post/461469/

Ответить
Развернуть ветку
3 комментария
Николай Кузнецов

Первый голос очень нудный, а вот второй чертовски хорош, прям как живой. 

Ответить
Развернуть ветку
Retell
Автор

У всех очень разное восприятие. К тому же, в статье у нас показаны примеры только 3-х голосов. Всего же издания могут выбрать из 11 голосовых моделей в своем личном кабинете, и мы стараемся увеличить этот выбор.

Ответить
Развернуть ветку
Олег Качанко

Да, кстати, женские отличные, я слушал только мужской и очень монотонный. Но у женских какая-то явная проблема с качеством записи ("пыки" на взрывных "п", какие-то проглатывания).

Ответить
Развернуть ветку
Тимур Тарасов

Даже не знал о таком сервисе... Какие языки еще поддерживаете?

Ответить
Развернуть ветку
Retell
Автор

Рады, что статья оказалась полезной.  Сейчас в интерфейсе можно выбрать только русский язык. До конца лета добавим еще 22 языка, включая наиболее популярные.

Ответить
Развернуть ветку
5 комментариев
Retell
Автор

Тимур, а какие языки наиболее интересны и приоритетны для вас?

Ответить
Развернуть ветку
Andrew Gerasimov

Идея прикольная, надо будет потестить. Было бы круто если бы вы добавили интеграцию аудиоверсий с подкастами ВК, чтобы они автоматом выгружались.

Ответить
Развернуть ветку
Retell
Автор

Андрей, отличная идея! Есть планы по интеграции не только лишь с подкастами Вконтакте, как минимум, есть еще Яндекс Подкасты https://music.yandex.ru/non-music

Ответить
Развернуть ветку
Sabit Sugirov

Интересно, используете ли профессиональные плагины для согревания звука (аналоговая сатурация)? Очень нравится https://slatedigital.com/virtual-tape-machines/

Ответить
Развернуть ветку
Retell
Автор

У нас есть постпродакшен, но именно такую штуку не используем. Обязательно присмотримся, огромное спасибо!

Ответить
Развернуть ветку
2 комментария
Юрий Б.

Голос #2 огонь! #3 человечный и тёплый, но интонационные скачкИ неестественные. #1 ну обычный голос для ржак Бостон Дайнэмикс только чуть получше.

Ответить
Развернуть ветку
Retell
Автор

Очень рады, что некоторые голоса из представленных примеров вам понравились. Оцените и другие, сейчас в нашем сервисе можно выбрать из более чем 10 отборных голосов, включая наиболее популярные у изданий (их в примерах не было)

Ответить
Развернуть ветку
Борис Лифановский

Зашёл на сайт, присматриваюсь. Но раз разработчик пока здесь - скажите, а сколько будет стоить сотрудничество с Вами для сайта, у которого примерно 30,000 старых статей и добавляется примерно по 10 в день. Средний объем статьи - примерно 6-7 тысяч символов. Спасибо! 

Ответить
Развернуть ветку
Retell
Автор

Борис, для вашего сайта все новые статьи сможете озвучивать за 6 481,23 рублей в месяц с применением промокода VC.RU

30 тыс. статей - это, конечно, большой объем для единовременного озвучивания. Если посчитать, то для озвучивания всех старых статей потребуется порядка 900 тысяч рублей. У вас весь контент актуален в старых статьях?

В Retell не сложно определить актуальность и сильно сэкономить на текстах, не пользующихся спросом. Напишите нам [email protected]

Ответить
Развернуть ветку
Алекс Кац

Я вот чего не нашёл: озвучка загруженных текстов извне. Очень бы хотелось озвучить книги, аудиоверсий которых нет - для личного пользования. Обычные сервисы не подходят из-за того, что их голоса неестественны. А ваши прямо как живые.
Кстати, такой сервис подошёл бы и издательствам; стоимость озвучки живым спикером чертовски дорогая!

Ответить
Развернуть ветку
Dmitry Abramov

Алекс, здорово, что вы об этом задумываетесь. Наш сервис как раз об этом. Заходите, попробуйте https://speechki.org 

Ответить
Развернуть ветку
1 комментарий
Anna Petrova

Как раз сейчас хочу сделать телеграм канал для голосовых ответов на частые вопросы мам (поддержка грудного вскармливания, лактостаз и т.д.), но пока не вижу альтернативы живому голосу акушера. Теплота и интонация очень важна. Подожду пока вы реализуете все задумки.
Буду за вами следить 🤗

Ответить
Развернуть ветку
Retell
Автор

Анна, это очень классный контент. Согласны, что интонация и теплота голоса в вашей тематике очень и очень важны. Мы постараемся добавить максимально подходящие голоса, с теплотой ;) А вы уже протестировали все голоса, доступные для озвучивания? Может быть какой-то из уже добавленных вам подойдет?

Ответить
Развернуть ветку
Платон Щукин

@Retell Больше 5 000 000 симв. не купить?)

Ответить
Развернуть ветку
Retell
Автор

Больше 5 млн символов купить можно, да хоть 100 млн., но чтобы это сделать нужно списаться с нами - мы и специальные, особо выгодные условия предложим ;)

Ответить
Развернуть ветку
Вик Григ

Очень хорошее качество озвучки. Вы сами разработали технологию или используете сторонние сервисы? Как я знаю разработка подобных технологий очень сложное и дорогое дело.

Ответить
Развернуть ветку
Retell
Автор

Для синтеза речи мы используем Text-to-Speech решения от корпораций, но кроме того, что мы максимально упростили процесс подключения и позволяем получить озвучивание к сайту за несколько минут, мы также делаем результат их синтеза лучше за счёт подготовки и предварительной разметки текста для синтеза, а также постпродакшена.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Retell
Автор

Качество речи постоянно улучшается. Это происходит чрезвычайно быстро, и уверяем, что неотличимую от человеческой синтезированную речь вы услышите намного раньше, чем мы пересядем на гиперлеты ;) Так что вам нужно будет лишь немного подождать. Кстати, миллионы пользователей уже сейчас слушают такую озвучку и не испытывают никакого дискомфорта.

Ответить
Развернуть ветку
1 комментарий
Игорь Галкин

Раздули из обычной фичи новостного сайта какую-то сенсацию 🤦‍♂️🤦‍♂️🤦‍♂️

Это обычная студенческая работа, ничего гениального в этом нет. Вы просто интерфейсная прослойка между новостным порталом и спичкитом Яндекса, о чем вы говорите? Ровно также можно подключить и другие синтезаторы голоса. Лучше бы свой синтезатор сделали, а не зависели бы от других.

Новостному сайту наверняка будет проще сразу озвучивать новость через Яндекс, это для них будет гораздо дешевле, чем сидеть у вас на абонентке. Реализовать это — вопрос 2 недель и 100-150 тыс или найти смышленного фрилансера или студента, который может и за 30 тысяч сделать. Не вгоняйте людей в заблуждение! Притом, что уже и референс есть и ничего нового придумывать не нужно.

Обучаемая система — это смешно, вы просто строите словари с ударением. Не питайте людей красивыми словами.  Особенно посмеялся с так называемых «инженеров» — делать словарь ударений, конечно, безумно сложно (ирония). 

Завтра Яндекс сделает свой сервис и закроет доступ к своему API, а вы будете сидеть в каминг-ауте. Займитесь чем-нибудь своим лучше, пока не поздно. 

Ответить
Развернуть ветку
Retell
Автор

Игорь, спасибо за критику. На «сенсацию» не претендовали, совсем )
Давайте разбираться по порядку:

1. Мы так и написали: «Не путайте, Retell — это не платформа Text-to-Speech, конкурирующая с TTS от корпораций, а сервис для онлайн-изданий...». Никого в заблуждение не вгоняем. К тому же, помимо синтеза у нас много дополнительных и полезных функций, таких как статистика прослушивания, кастомизация плеера, словари и другие

2. Мы пообщались более чем с 200 изданиями, сделать «своё» для них совсем не проще. Своими регистрациями издания это подтверждают.

Уверен, что за «2 недели и 100-150 тыс.» такое не реализовать, но даже если допустить этот вариант, то этих денег среднему изданию, выпускающему от 30 до 70 статей ежедневно, хватит минимум на 2,5 года подписки в нашем сервисе. И тут уже выбор за ними.

3. Возможно, что «Завтра Яндекс сделает свой сервис и закроет доступ к своему API», но пока что сам Яндекс рекомендует использовать наш сервис
https://vc.ru/yandex.cloud/80606-shiny-metal-backside. Цитата:

«Разработчикам и продуктовым командам, как правило, не составляет труда разобраться с API самостоятельно. Бизнесу это сложнее, поэтому мы работаем с партнёрами, которые берут эти заботы на себя — к примеру, с командой Retell, которая поставила озвучку контента на поток.»

Ответить
Развернуть ветку
Retell
Автор

Друзья, если не сложно, накидайте еще критики, пожеланий и идей. 

Ответить
Развернуть ветку
John Carter

Вставка в спортс ру мой мозг воспринял как рекламу, не знаю почему, но выглядит как рекламная вставка. Вот такая критика. 

Ответить
Развернуть ветку
1 комментарий
Sasha Lander

Скажите, а я смогу, после подключения вашей платформы, скачивать себе на комп полученные аудиофайлы? 

Ответить
Развернуть ветку
Retell
Автор

Да, конечно. Вы, как издание, сможете скачать все озвученные статьи в своём личном кабинете.

Что касается читателей-слушателей, то возможность скачивать аудио с сайта подключенного издания пока что не даём. Как думаете, нужно ли это?

Ответить
Развернуть ветку
3 комментария
Влад Заев

Как вы решили вопрос хранения записей на сервере (ваш личный или арендуете) и в каком формате идут аудио?

Ответить
Развернуть ветку
Retell
Автор

Изначально, это было большой проблемой, которую наши инженеры решали. В итоге, успешно решили, и сейчас мы используем несколько облачных сервисов для хранения, раздачи и воспроизведения.

Ответить
Развернуть ветку
2 комментария
Ars Kalinichenko

Здравствуйте! Не думали ли вы обучать модель text-to-speech на видео с YouTube, где есть хороший продакшн звука и субтитры? 

Ответить
Развернуть ветку
Retell
Автор

Добрый день! Честно скажем, не пробовали. У нас ведь не text-to-speech платформа, сам синтез - это не наша фишка, Retell - это про исключительную простоту добавления озвучивания на сайты и удобство читателей (или правильнее сказать - слушателей).

Ответить
Развернуть ветку
Димитриан Иваненко

А что по финмодели? Как зарабатываете? Что получилось заработать за 40 тыс статей?

Ответить
Развернуть ветку
Andrey Greenberg

Слушал и читал одновременно. Ну и странные вещи заметил, например, то заголовок озвучивается, то нет, голоса разные на них. Аудиоверсия, как я понял делалась раньше, а потом статья обновилась. Иначе трудно объяснить почему написано по факту одно, а робот говорит другое. Автор - проверьте нестыкуху, исправьте. А то вроде как рекламирует себя, а на деле не всё так хорошо. Других ругать оно конечно проще)

Ответить
Развернуть ветку
Andrey Greenberg

Послушал и прочитал несколько статей на сайте "ПроУфу". Не всё так гладко, то робот не то говорит, заголовки не с первого читает и на одной статье закончил её на середине. Нда. Видимо пока не готов ваш сервис, чтобы хвалиться. И, кстати, голос диктора это нечто. Отталкивает, моё мнение

Ответить
Развернуть ветку
Веталь Кличко

Сначала хотел написать развёрнутый ответ, но только не на том, что заставляет тебя думать, а потом ещё и говорить, что это не мое. Если ты умеешь и не умеешь мысли сформулировать — лучше делай сам. Но ты считаешь, что ты неправ.

Ответить
Развернуть ветку
Retell
Автор

Расскажите, пожалуйста, как вы без помощи кого-либо сталкивались с подобным. Я не удивлюсь, если это будет решающим фактором. Не понимаю, за что минусую.

Ответить
Развернуть ветку
69 комментариев
Раскрывать всегда