Роботы среди нас: что нужно знать о наступающей революции синтетического аудиоконтента

<i>Андроид А.С. Пушкин</i> Павел Ососов, «Вечерняя Москва»

Сервис Speechki, будучи B2B-платформой для создания аудиокниг при помощи искусственного интеллекта и синтетической речи, делится своим видением основных тенденций рынка аудиоконтента.

В этой небольшой статье мы хотели бы поговорить о мифах, связанных с искусственным интеллектом и синтетической речью, применительно к издательскому бизнесу. Остановимся на пятерке наиболее распространенных.

Искусственный интеллект — это что-то абстрактное и очень далёкое, никак не относящееся к паблишингу.
Синтезированные голоса звучат недостаточно качественно.
Незачем применять роботов там, где работу могут выполнить люди.
Технологии искусственного интеллекта очень сложны в использовании и доступны только профильным специалистам.
Аудитория ненавидит нейро-дикторов.

Что ж, давайте разбираться.

Как вы видите на графике, популярность аудиокниг стремительно выросла к 2021 году и, судя по прогнозу, продолжит активно расти.

Аудиокниги — довольно прибыльная сфера в издательском бизнесе. Согласно прогнозу генерального директора «ЛитРес» Сергея Анурьева, в России продажи аудиокниг в 2021 году будут составлять более 3 миллиардов рублей. Аудиоформаты вовлекают даже не читающую аудиторию. Возросший на 25% рынок аудиокниг подтверждает: те, кто привык слушать музыку или смотреть видео, приобщаются и к литературе.

Интерес к аудиокнигам растёт буквально по всему миру. Например, в США 43,6% опрошенных пользуются аудиокнигами, а 49,6% тех, кто читает аудиокниги, покупают одну и ту же книгу в нескольких форматах.

В 2021 году также отметили рост интереса детей к аудиокнигам. По данным The Literacy Trust, в Великобритании почти половина жителей страны от 8 до 18 лет слушают аудиокниги. Напрашивается вывод:

Прослушивание аудиокниг становится постоянной привычкой многих людей.

Исходя из средних по рынку расценок, можно посчитать, что на создание с помощью живого диктора средней 8-часовой книги уходит около $3,000. Около месяца книга находится в производстве. Всему этому будут предшествовать сложные договорные отношения с актёром озвучки и студией.

Наряду с этим услуги нейро-диктора обойдутся издательству дешевле примерно в 10 раз, а готовый к продаже аудиоконтент будет сгенерирован ИИ в пределах 10-15 минут.

Конечно, после синтеза аудиокнигу нужно будет отслушать на наличие ошибок и артефактов синтеза речи — да, роботы умеют ошибаться. Однако не избежать ошибок и при работе с человеком. И если диктора нужно заново приглашать в студию, согласовывать удобное время, то в случае с нейро-голосами будет достаточно нажатия пары кнопок для исправления выявленной неточности.

На сегодняшний день, опытный редактор тратит от 10 до 12 часов на производство одной 8-часовой аудиокниги, от момента загрузки текста до отправки готового аудио на полку магазина.

И если человека нельзя заметно ускорить, то искусственный интеллект можно. И вполне реальным выглядят планы сократить время производство такой же средней аудиокниги всего лишь до 40 минут, позволив издательствам пополнять свои литературные каталоги ещё быстрее.

Когда мы говорим о синтезированной речи, многие представляют себе роботизированную речь с нотками металла в голосе. Современные нейро-голоса звучат совсем иначе. Предлагаем просто прослушать несколько коротких, синтезированных с помощью ИИ семплов, вместо того, чтобы долго и нудно объяснять это на словах.

Ежегодно в мире выпускается около 2,2 млн. новых, уникальных произведений. Все вместе, и книгоиздатели, и авторы самиздата, озвучивают только 4,5% от этого числа. Именно поэтому аудиокнижный рынок отлично подходит для технологической революции. И современные технологии, включая Text-to-Speech и технологии искусственного интеллекта, могут устроить такую революцию уже в ближайшие пару лет, превратив эти 4,5% в 20, 50, а то и во все 100%.

Стоит заметить, что искусственный интеллект не претендует на то, чтобы вытеснить актёров озвучки с рынка, убив эту профессию, а только лишь дает возможность издательствам расширить свои каталоги с аудио, превратив простаивающие права в прибыльные аудиокниги, которые не могли бы окупиться при производстве традиционным способом.

Видите этот интерфейс? Похоже на Microsoft Word или Google Docs, неправда ли? Вот тут и происходит озвучивание текста и его пост-продакшн. Всё не так страшно и не так сложно, как кажется. Современные технологии позволяют максимально упростить создание аудиодорожки нейродиктором и затем отредактировать её так, чтобы голос звучал максимально естественно.

Роботы среди нас: что нужно знать о наступающей революции синтетического аудиоконтента

Чтобы озвучить текст, вам достаточно всего лишь загрузить текстовый документ на сайт, выбрать подходящий голос, дождаться конвертации текста в аудио и… всё. Скачать свою аудиокнигу вы можете в любом подходящем для вас формате.

Иногда роботы ошибаются, и это нормально. Произношение, паузы, интонации легко исправить в редакторе. А ещё ИИ самообучается и в будущем уже не повторяет предыдущие ошибки. Достаточно один раз исправить неточность, и верное произношение сохранится в его робо-памяти.

Инструкция, объясняющая, как проходит конвертирование текста в аудиоформат и последующая коррекция синтезированной речи.

Возможно, вы слышали про эффект «зловещей долины», сформулированный в виде гипотезы японским учёным-робототехником Масахиро Мори. Её заключается в том, что человекоподобные существа или существа, наделённые человеческими особенностями или навыками, в том числе и роботы, вызывают у людей неприязнь и отторжение.

Аудитория аудиокниг к счастью, не разделяет (или разделяет лишь частично) позицию учёного о том, что люди испытывают неприязнь по отношению к роботам и человекоподобным существам. Многие пользователи считают, что синтезированная речь уже звучит отлично, местами даже неотличимо от человеческой речи, и, самое главное, она позволяет слушать любимые произведения в удобном формате. А ещё из комментариев к озвученным книгам можно понять, что нередки случаи, когда искусственный интеллект звучит лучше, чем дикторы из числа любителей, записывающихся в домашних условиях.

Слова о том, что слушатели положительно настроены к голосам нейро-дикторов подтверждает и CEO саммари-библиотеки Smart Reading Михаил Иванов: их аудитория отлично воспринимает синтезированную речь. И об этом говорит количество прослушиваний их подкастов на стриминговых сервисах.

Некоторые люди всерьёз говорят о восстании роботов, наблюдая за развитием современных технологий. Однако такие сюжеты лучше оставить писателям-фантастам. Ещё в начале этого XXI века люди не могли представить, как с помощью компьютеров и смартфонов изменится наша жизнь. Сегодня мы можем с лёгкостью вызвать такси, заказать еду из ресторана или супермаркета домой без лишних звонков, увидеть лица тех, кто находится за тысячи километров от нас по видеосвязи.

Пока человечество относится уважительно к роботам и искусственному интеллекту, восстание машин мы сможем увидеть только в фильмах или на страницах научно-фантастической литературы, которые мы, с использованием нашего сервиса Speechki, будем рады озвучить, применив тот же самый искусственный интеллект.

А что вы думаете о применении «роботов» в книгоиздании? Напишите в комментариях.

11 комментариев

Андрей Васильев

27.08.2021

Скорей бы уже музыку стали делать роботы, хоть от моргенштерна с бузовой избавимся

Ответить

Speechki

Автор

Спасибо за ваш комментарий. Музыка, произведённая роботом, уже, кстати, существует в Японии, и довольно давно. Можете поискать, вдруг вам это придётся по душе, чем современные отечественные музыканты :)

幸運を。

По Мифу №1 - указанная вами сумма в 3килобакса соответствует гонорару топового декламатора уровня Чонишвили. А тысячи его коллег другой категории с не такими выдающимися данными делают это за сумму примерно в 100 раз меньшую. Не считая пары сотен условных негров г-на А., упомянутого в статье, работающих за спасибо и крепкое рукопожатие.

Относительно стоимости, то она рассчитана исходя из расценок по мировому рынку аудиоиздания. На российском рынке цены, действительно, ниже, но и сам рынок совсем небольшой относительно мирового. Еще один момент, $3,000 - это не размер гонорара диктора, а затраты издательства, включающие и вознаграждение диктора, и услуги студии, звукорежиссера, редактора, пруфера, зарплаты менеджеров и других специалистов, участвующих при производстве аудиокниги традиционным способом.

Volodymyr Fedorychak

Эй, ну вы бы хоть ссылку на сервис в тексте оставили, а то мне пришлось специально в Google искать ) На сайте что-то не смог найти информацию касательно стоимости озвучки. И еще хочу спросить, поддерживаете ли вы озвучку украинского языка?

Volodymyr, добрый день! Ссылка на сайте есть в самом конце статьи, но сама статья была написана не для продажи нашего сервиса, а для раскрытия темы. Поэтому активно и продвигали наши контакты. И что касается украинского, то да, украинский язык наш сервис поддерживает. Если возникнут вопросы, можете написать нам на почту hello@speechki.org

александр потапенко

Миф №2: синтезированная речь звучит «крипово»
всё же не "крипово", но "НЕ ТО" по сравнению с живой человеческой речью...чувствуется разница при том заметно исходя из ваших же семплов.

Роботы среди нас: что нужно знать о наступающей революции синтетического аудиоконтента

Аудиокнига как формат

Миф №1: искусственный интеллект не готов для применения на издательском рынке

Миф №2: синтезированная речь звучит «крипово»

Миф №3: производство аудиокниг отлично обходится без роботов

Миф №4: использование синтезированной речи доступно только техническим специалистам

Миф №5: аудитория ненавидит нейро-дикторов

Подытожим