{"id":14268,"url":"\/distributions\/14268\/click?bit=1&hash=1e3309842e8b07895e75261917827295839cd5d4d57d48f0ca524f3f535a7946","title":"\u0420\u0430\u0437\u0440\u0435\u0448\u0430\u0442\u044c \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0430\u043c \u0438\u0433\u0440\u0430\u0442\u044c \u043d\u0430 \u0440\u0430\u0431\u043e\u0447\u0435\u043c \u043c\u0435\u0441\u0442\u0435 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f71e1caf-7964-5525-98be-104bb436cb54"}

Роботы среди нас: что нужно знать о наступающей революции синтетического аудиоконтента

Андроид А.С. Пушкин Павел Ососов, «Вечерняя Москва»

Сервис Speechki, будучи B2B-платформой для создания аудиокниг при помощи искусственного интеллекта и синтетической речи, делится своим видением основных тенденций рынка аудиоконтента.

В этой небольшой статье мы хотели бы поговорить о мифах, связанных с искусственным интеллектом и синтетической речью, применительно к издательскому бизнесу. Остановимся на пятерке наиболее распространенных.

  • Искусственный интеллект — это что-то абстрактное и очень далёкое, никак не относящееся к паблишингу.
  • Синтезированные голоса звучат недостаточно качественно.
  • Незачем применять роботов там, где работу могут выполнить люди.
  • Технологии искусственного интеллекта очень сложны в использовании и доступны только профильным специалистам.
  • Аудитория ненавидит нейро-дикторов.

Что ж, давайте разбираться.

Аудиокнига как формат

Как вы видите на графике, популярность аудиокниг стремительно выросла к 2021 году и, судя по прогнозу, продолжит активно расти.

Источник: Statista.com

Аудиокниги — довольно прибыльная сфера в издательском бизнесе. Согласно прогнозу генерального директора «ЛитРес» Сергея Анурьева, в России продажи аудиокниг в 2021 году будут составлять более 3 миллиардов рублей. Аудиоформаты вовлекают даже не читающую аудиторию. Возросший на 25% рынок аудиокниг подтверждает: те, кто привык слушать музыку или смотреть видео, приобщаются и к литературе.

Интерес к аудиокнигам растёт буквально по всему миру. Например, в США 43,6% опрошенных пользуются аудиокнигами, а 49,6% тех, кто читает аудиокниги, покупают одну и ту же книгу в нескольких форматах.

В 2021 году также отметили рост интереса детей к аудиокнигам. По данным The Literacy Trust, в Великобритании почти половина жителей страны от 8 до 18 лет слушают аудиокниги. Напрашивается вывод:

Прослушивание аудиокниг становится постоянной привычкой многих людей.

Миф №1: искусственный интеллект не готов для применения на издательском рынке

Исходя из средних по рынку расценок, можно посчитать, что на создание с помощью живого диктора средней 8-часовой книги уходит около $3,000. Около месяца книга находится в производстве. Всему этому будут предшествовать сложные договорные отношения с актёром озвучки и студией.

Наряду с этим услуги нейро-диктора обойдутся издательству дешевле примерно в 10 раз, а готовый к продаже аудиоконтент будет сгенерирован ИИ в пределах 10-15 минут.

Конечно, после синтеза аудиокнигу нужно будет отслушать на наличие ошибок и артефактов синтеза речи — да, роботы умеют ошибаться. Однако не избежать ошибок и при работе с человеком. И если диктора нужно заново приглашать в студию, согласовывать удобное время, то в случае с нейро-голосами будет достаточно нажатия пары кнопок для исправления выявленной неточности.

На сегодняшний день, опытный редактор тратит от 10 до 12 часов на производство одной 8-часовой аудиокниги, от момента загрузки текста до отправки готового аудио на полку магазина.

И если человека нельзя заметно ускорить, то искусственный интеллект можно. И вполне реальным выглядят планы сократить время производство такой же средней аудиокниги всего лишь до 40 минут, позволив издательствам пополнять свои литературные каталоги ещё быстрее.

Миф №2: синтезированная речь звучит «крипово»

Когда мы говорим о синтезированной речи, многие представляют себе роботизированную речь с нотками металла в голосе. Современные нейро-голоса звучат совсем иначе. Предлагаем просто прослушать несколько коротких, синтезированных с помощью ИИ семплов, вместо того, чтобы долго и нудно объяснять это на словах.

Миф №3: производство аудиокниг отлично обходится без роботов

Ежегодно в мире выпускается около 2,2 млн. новых, уникальных произведений. Все вместе, и книгоиздатели, и авторы самиздата, озвучивают только 4,5% от этого числа. Именно поэтому аудиокнижный рынок отлично подходит для технологической революции. И современные технологии, включая Text-to-Speech и технологии искусственного интеллекта, могут устроить такую революцию уже в ближайшие пару лет, превратив эти 4,5% в 20, 50, а то и во все 100%.

Стоит заметить, что искусственный интеллект не претендует на то, чтобы вытеснить актёров озвучки с рынка, убив эту профессию, а только лишь дает возможность издательствам расширить свои каталоги с аудио, превратив простаивающие права в прибыльные аудиокниги, которые не могли бы окупиться при производстве традиционным способом.

Миф №4: использование синтезированной речи доступно только техническим специалистам

Видите этот интерфейс? Похоже на Microsoft Word или Google Docs, неправда ли? Вот тут и происходит озвучивание текста и его пост-продакшн. Всё не так страшно и не так сложно, как кажется. Современные технологии позволяют максимально упростить создание аудиодорожки нейродиктором и затем отредактировать её так, чтобы голос звучал максимально естественно.

Чтобы озвучить текст, вам достаточно всего лишь загрузить текстовый документ на сайт, выбрать подходящий голос, дождаться конвертации текста в аудио и… всё. Скачать свою аудиокнигу вы можете в любом подходящем для вас формате.

Иногда роботы ошибаются, и это нормально. Произношение, паузы, интонации легко исправить в редакторе. А ещё ИИ самообучается и в будущем уже не повторяет предыдущие ошибки. Достаточно один раз исправить неточность, и верное произношение сохранится в его робо-памяти.

Инструкция, объясняющая, как проходит конвертирование текста в аудиоформат и последующая коррекция синтезированной речи.

Миф №5: аудитория ненавидит нейро-дикторов

Возможно, вы слышали про эффект «зловещей долины», сформулированный в виде гипотезы японским учёным-робототехником Масахиро Мори. Её заключается в том, что человекоподобные существа или существа, наделённые человеческими особенностями или навыками, в том числе и роботы, вызывают у людей неприязнь и отторжение.

Аудитория аудиокниг к счастью, не разделяет (или разделяет лишь частично) позицию учёного о том, что люди испытывают неприязнь по отношению к роботам и человекоподобным существам. Многие пользователи считают, что синтезированная речь уже звучит отлично, местами даже неотличимо от человеческой речи, и, самое главное, она позволяет слушать любимые произведения в удобном формате. А ещё из комментариев к озвученным книгам можно понять, что нередки случаи, когда искусственный интеллект звучит лучше, чем дикторы из числа любителей, записывающихся в домашних условиях.

Слова о том, что слушатели положительно настроены к голосам нейро-дикторов подтверждает и CEO саммари-библиотеки Smart Reading Михаил Иванов: их аудитория отлично воспринимает синтезированную речь. И об этом говорит количество прослушиваний их подкастов на стриминговых сервисах.

Актеры фильма «Robby the Robot»

Подытожим

Некоторые люди всерьёз говорят о восстании роботов, наблюдая за развитием современных технологий. Однако такие сюжеты лучше оставить писателям-фантастам. Ещё в начале этого XXI века люди не могли представить, как с помощью компьютеров и смартфонов изменится наша жизнь. Сегодня мы можем с лёгкостью вызвать такси, заказать еду из ресторана или супермаркета домой без лишних звонков, увидеть лица тех, кто находится за тысячи километров от нас по видеосвязи.

Пока человечество относится уважительно к роботам и искусственному интеллекту, восстание машин мы сможем увидеть только в фильмах или на страницах научно-фантастической литературы, которые мы, с использованием нашего сервиса Speechki, будем рады озвучить, применив тот же самый искусственный интеллект.

А что вы думаете о применении «роботов» в книгоиздании? Напишите в комментариях.

0
11 комментариев
Написать комментарий...
Андрей Васильев

Скорей бы уже музыку стали делать роботы, хоть от моргенштерна с бузовой избавимся

Ответить
Развернуть ветку
Speechki
Автор

Спасибо за ваш комментарий. Музыка, произведённая роботом, уже, кстати, существует в Японии, и довольно давно. Можете поискать, вдруг вам это придётся по душе, чем современные отечественные музыканты :)

Ответить
Развернуть ветку
Ирина Корнева

"Музыка, произведённая роботом", если Вы имеете ввиду музыкальные произведения, в частности произведения Баха, исполняемые роботом, речь идет о Японии, и это действительно обсуждалось давно специалистами, музыкальными критиками, выводы были сделаны однозначные, мнение не изменилось: исполнение безукоризненно по технике исполнения, но там нет того что присуще человеку - музыканту - исполнителю - его Души.
Ваш совет: "вдруг вам это придётся по душе" - это что по душе отсутствие души, как такое можно советовать, это оскорбительно. И недопустим, мое личное мнение, для модератора столь менторский тон, а он присутствует.
"Можете поискать, вдруг вам это придётся по душе, чем современные отечественные музыканты" - "поискать" что? вам пишется Вам, "это" -что это?
Может СПИЧКам более серьезно относиться к подбору модераторов, моя личная просьба?

Ответить
Развернуть ветку
幸運を。

По Мифу №1 - указанная вами сумма в 3килобакса соответствует гонорару топового декламатора уровня Чонишвили. А тысячи его коллег другой категории с не такими выдающимися данными делают это за сумму примерно в 100 раз меньшую. Не считая пары сотен условных негров г-на А., упомянутого в статье, работающих за спасибо и крепкое рукопожатие.

Ответить
Развернуть ветку
Speechki
Автор

Относительно стоимости, то она рассчитана исходя из расценок по мировому рынку аудиоиздания. На российском рынке цены, действительно, ниже, но и сам рынок совсем небольшой относительно мирового. Еще один момент, $3,000 - это не размер гонорара диктора, а затраты издательства, включающие и вознаграждение диктора, и услуги студии, звукорежиссера, редактора, пруфера, зарплаты менеджеров и других специалистов, участвующих при производстве аудиокниги традиционным способом.

Ответить
Развернуть ветку
幸運を。

Если это книга приличного автора - не будем углубляться - возможно и расходы приближаются к указанной сумме.
А весь остальной ширпотреб стоит гораздо меньше. К тому же вышеупомянутые негры совмещают диктора/студию/звукорежа/редактора. 
Но когда час готовой фонограммы вашего сервиса станет дешевле 500р - вы победите)

Ответить
Развернуть ветку
Volodymyr Fedorychak

Эй, ну вы бы хоть ссылку на сервис в тексте оставили, а то мне пришлось специально в Google искать ) На сайте что-то не смог найти информацию касательно стоимости озвучки. И еще хочу спросить, поддерживаете ли вы озвучку украинского языка? 

Ответить
Развернуть ветку
Speechki
Автор

Volodymyr, добрый день! Ссылка на сайте есть в самом конце статьи, но сама статья была написана не для продажи нашего сервиса, а для раскрытия темы. Поэтому активно и продвигали наши контакты. И что касается украинского, то да, украинский язык наш сервис поддерживает. Если возникнут вопросы, можете написать нам на почту [email protected]

Ответить
Развернуть ветку
Volodymyr Fedorychak

Это понятно, просто удобнее сразу кликнуть и перейти ) Так что не лишним было бы и в начале статьи добавить. Спасибо за ответы!

Ответить
Развернуть ветку
александр потапенко

Миф №2: синтезированная речь звучит «крипово»
всё же не "крипово", но "НЕ ТО" по сравнению с живой человеческой речью...чувствуется разница при том заметно исходя из ваших же семплов.

Ответить
Развернуть ветку
Igor Litvin

Как скоро можно будет открыть аттракцион дуэль с Пушкиным? Робот в образе Пушкина получает пулю от любого желающего! Можно даже в школьную программу вести дуэль с Пушкиным, что бы лучше понять автора, плохим ученикам тоже должно понравится

Ответить
Развернуть ветку
8 комментариев
Раскрывать всегда