Роботы наступают: как Speechki помогли быстро расширить каталог аудиокниг Alpina Digital

Как автоматизировать создание аудиокниг, сократив время и расходы на производство

Онлайн-платформа Speechki, превращающая текст в аудиокнигу с помощью нейронных голосов, появилась в 2019 году. Сооснователи компании не нашли интересующие их произведения в аудиоформате и решили применить собственные знания на практике. С тех пор с помощью технологии Text-to-Speech мы озвучили более 800 произведений. Историю становления стартапа и принципы работы сервиса вы можете прочесть в обзорной статье в нашем блоге на VC.RU.

Speechki и корпоративная библиотека Alpina Digital начали сотрудничать в 2020 году. На момент публикации статьи мы записали для них под сотню аудиокниг. В их числе научпоп, книги о бизнесе и другая нон-фикшн литература.

<i>Скриншот с сайта корпоративной библиотеки Alpina Digital</i>

Мы сумели выстроить комфортный процесс работы, чтобы быстро передавать готовые аудиокниги в производство и представлять их на фокус-группах. «Синтетические дикторы» выдают качественный контент, чему способствует самообучение после каждой записанной книги. Именно этот уровень качества, который повышается с каждым днём, нравится издательствам. К тому же они уверены, что диктор не столкнётся с типичными человеческими проблемами: болезни, опоздания и тяжёлые жизненные ситуации.

Несмотря на положительные качества диктора-робота, Speechki совершенно не пытаются каким-либо образом сместить с рынка профессиональных живых чтецов. По нашему мнению, есть значительный пласт произведений, которые должны быть записаны человеком (в том числе и самим автором). Но современные реалии аудиорынка таковы, что лишь 4,5% от всех публикующихся за год книг получают аудиоверсию. Именно для оставшихся 95,5% мы предлагаем свои услуги, помогая слушателям получать нужный контент в удобном формате, а издательствам расширять каталоги аудиокниг быстрее и финансово выгоднее.

2,2 млн.
новых книг выпускается в год

4,5%
книг получают аудиоверсию

Получая готовый текст, Speechki формируют ряд запросов к «движку» синтеза речи. В параметрах клиент самостоятельно может выбрать язык книги, понравившийся голос и скорость воспроизведения. После этого отправляется запрос на озвучивание, получая в ответ готовый аудиофайл в формате LPCM. Далее мы конвертируем файл в запрашиваемый клиентом формат и проводим постпродакшн-обработку через эквалайзер, звуковые эффекты, компрессию и т.д. Вот так получается почти готовая аудиокнига. Остаётся её только «причесать».

Ниже вы можете прослушать семпл аудиокниги «Лидерство Мацуситы: Уроки выдающегося предпринимателя ХХ века» Джона П. Коттера, которую мы озвучили для Alpina Digital.

На данный момент на постпродакшн одной восьмичасовой книги мы тратим 10-12 часов. За это время наши редакторы отслушивают книгу полностью и исправляют речевые неточности. По словам нашего главного редактора, чаще всего ИИ ошибается в ударениях. Но главный плюс нейродиктора в его самообучаемости. Для того, чтобы он больше не допускал орфоэпических ошибок, мы создали словарь фонем, и впоследствии закрепляем заданное произношение ко всем дальнейшим озвученным книгам.

Часто в произведениях встречаются омографы (то есть слова, которые совпадают в написании, но различаются в произношении). Для таких случаев у нас есть специальный словарь, который запоминает комбинации слов, рядом с которыми могут стоять омографы. А инструмент массовой замены позволяет применить исправления по всей книге, и это значительно сокращает время работы с аудиопроизведением.

«Работой с сервисом Speechki мы довольны. Это интересный опыт, к тому же их ИИ хорошо справляется. В эпоху цифровизации вообще разумно тестировать новые технологии, особенно столь перспективные. Кроме того, нам приятно, что наши книги помогают ИИ развиваться. Также немаловажно, что сотрудничество со Speechki позволяет записывать аудиокниги тогда, когда это сложно сделать силами дикторов. При этом совсем отказываться от услуг дикторов мы не планируем».
Николай Боронин
, руководитель аудиопроектов Alpina Digital

Цикл создания аудиокниги, записанной при помощи ИИ, куда проще, чем тот, с которым сталкиваются при создании классической аудиокниги. Но и наша работа не так легка, как кажется. Правда, все сложности мы перекладываем на плечи софта и искусственного интеллекта, поставляя клиентам готовый продукт, который не вызывает у них сложностей и головной боли.

Спасибо, что дочитали наш кейс до конца! Интересующие вас вопросы вы можете оставить в комментариях, а мы постараемся подробно на них ответить.

3 комментария

Dmitry Abramov

22.07.2021

Спасибо комментариям издательства! Взгляд со стороны человека, который видит реакцию конечного пользователя, всегда очень важен и максимально полезен

Ответить

Bahtiyar Khuja

Вау! Прекрасно! Отрывок из книги едва отличим от начитки человеком.

Но если послушать примеры на сайте - я взял Оливера, Харри и Нанда - есть типичное искажение на [heat] и около него у Оливера, незначительное у Нанда и почти нет искажения у Гарри. Это как-то зависит от выбранного голоса? Или диалекта? В принципе, несущественно, это просто наблюдение.

Мне очень понравилось, вы большие молодцы! Успехов вам и вашей команде!

26.07.2021

Здравствуйте Бахтияр,

Да, иногда искажения появляются - обычно чем современнее модель голоса и «лучше» дата-сет - тем меньше искажений :) Другими словами - искажения зависят скорее от условий, в которых изготавливался голос, а не диалекта или языка!

Спасибо!

Роботы наступают: как Speechki помогли быстро расширить каталог аудиокниг Alpina Digital

Сотрудничество с крупнейшей корпоративной библиотекой

Что входит в постпродакшн?

Мнение