Нейросеть говорит: как в Литрес озвучивают книги синтезом речи TTS (Text to speech)

Chat-GPT, Midjorney, Шедеврум… Чтобы озвучить 40 тысяч изданных за год книг, придется потратить немало времени, прибегнув к помощи профессиональных чтецов. В таком случае можно облегчить задачу и привлечь к работе синтез речи. Как нейросеть научилась говорить, а затем и озвучивать книги? Вместе с авторами и чтецами разбираемся в принципе работы синтеза речи на примере технологии Yandex SpeechKit и Литрес: Самиздат

Робота на обложке тоже нарисовала нам нейросеть

Представьте: вы опаздываете на работу, бежите к офису, и тут вам пишет коллега. У него что-то срочное! Печатать на бегу — идея так себе, и вот вы записываете голосовое сообщение. Коллега сидит на совещании, послушать не может. Поэтому он смотрит расшифровку.

Text to speech (TTS) — обратный процесс. Говоря проще, перевод печатного текста в звук (синтез речи).

Давайте разбираться, как работает технология.

Институт благородных нейросетей: зачем им обучаться?
Зачем озвучивать книги с помощью TTS
Трансформеры без Майкла Бэя
Чьим голосом говорит TTS?
Вместо дикторов, или вместе с дикторами?

В мозге человека 89 миллиардов нейронов — клеток, благодаря которым мы воспринимаем, обрабатываем и храним информацию. А насколько в этом отношении умен Николай Иронов? Как много нейронов в Midjorney или Chat-GPT? Не больше 10 миллионов. Так что вопрос о восстании машин можно отложить. Пока.

Любая нейросеть, хоть она и построена по принципу человеческой нервной системы, значительно уступает ей в мощности. Но все равно способна развиваться на основе огромного количества данных.

Ведь прежде, чем нейросеть «оживет», ее надо обучить — это базовый принцип работы

Обычно для обучения загружают в десять раз больше информации, чем количество нейронов в самой сети. То есть для того, чтобы обучить нейросеть из 10 нейронов рисовать, ей нужно показать как минимум 100 картинок. Эти картинки она превращает в цифровые данные.

Так причем же здесь тогда TTS?

Дело в том, что TTS тоже обучается, но на основе текстов и звуков, а не картинок.

Как это происходит? Рассмотрим на примере маленького фрагмента хрестоматийного текста и его озвучки человеком.

«Долго еще в эту ночь не могла заснуть Маслова, а лежала с открытыми глазами, и, глядя на дверь, заслонявшуюся то взад, то вперед проходившею дьячихой, и слушая сопенье рыжей, думала».

Если печатный текст состоит из слов и букв, которые складываются в предложения, то его аудиоверсия — из мелких фрагментов. И у каждого такого фрагмента есть свой «рисунок» на дорожке аудиозаписи.

Нейросеть говорит: как в Литрес озвучивают книги синтезом речи TTS (Text to speech)

Когда мы обучаем TTS, то хотим, чтобы:

Сначала технология научилась устанавливать соответствие между печатным фрагментом текста и его «рисунком» в аудиоверсии.
После смогла воспроизводить печатный текст самостоятельно, имитируя изученный «рисунок».

Это решает первую проблему — учит TTS говорить.

В Литрес для озвучки книг с помощью TTS мы используем технологию Yandex Cloud — Yandex SpeechKit, которая обучалась на аудиозаписях из разных источников, длительностью более 65 000 часов

Рынок электронных книг стремительно растет. Особенно это касается текстов независимых digital-авторов: за последний год с помощью платформы Литрес: Самиздат было опубликовано более 42000 произведений. Естественно, у многих писателей появляется желание услышать свою книгу — записать аудиоверсию. Но для таких объемов озвучить даже половину произведений просто невозможно по нескольким причинам:

Не хватит чтецов — тех, кто озвучивает аудиокниги.
Производство аудио — процесс, требующий больших ресурсов, в том числе временных.

С помощью сервиса синтеза речи Yandex SpeechKit только в прошлом году было озвучено более 100 000 часов аудиокниг. Как правило, компания нанимает менеджера, ответственного за разметку текста и проверку аудио. Стоимость самой технологии автоматически рассчитывается по количеству символов. Например, для озвучивания романа «Анна Каренина» (около 2 млн знаков) затраты на синтез составят около 2500 рублей.
YandexCloud

В Литрес мы даем каждому автору возможность создать аудиоверсию книги бесплатно. Голосом может стать один из участников проекта Литрес: Чтец, а может — технология ТТS. На это влияет несколько факторов:

Качество текста;
Статистика продаж этой книги и других произведений автора.

Чтобы получить аудиоверсию, достаточно в два клика опубликовать книгу на Литрес и заполнить заявку на бесплатную озвучку.

Дадим слово авторам, чьи книги «заговорили» голосами TTS.

Озвучка роботом пришлась моим читателям по душе. Аудиокниги, озвученные TTS, покупают каждый день. Людям однозначно нравится такой формат. Но всем не угодишь, всегда найдутся недовольные. Это нормально, у людей разные вкусы, иначе на свете были бы одни и те же книги и один формат аудиокниг. Так что я остался в выигрыше. Мой доход благодаря аудиоверсиям только увеличился.
Однако есть шероховатости в плане интонации. Иногда TTS не улавливает правильное, задуманное автором в произведении произношение. Иногда интонирование механическое, без акцентов и ударений. Но я хочу поблагодарить Литрес за предоставленную возможность публикации аудиокниг. У озвучки TTS есть очевидные плюсы: повышается скорость записи, а нейтральный голос идеально подходит слушателям, которые не любят излишние акценты.

Буквально через месяц после того, как был опубликован лонг-лист премии «Электронная буква», я получила письмо от Литрес о том, что мою книгу «Повороты судьбы, или Вот как бывает» выбрали для бесплатной озвучки. Разумеется, я обрадовалась, потому что даже бюджетный вариант аудиоверсии книги позволит значительно расширить читательскую аудиторию. Я решила ознакомиться с другими книгами, озвученными таким же образом.
В целом, голоса мне понравились – так сразу и не скажешь, что читает TTS. Мужской вообще на слух не отличить от живого человека. Прослушивая разные ознакомительные фрагменты, следила за интонацией и другими нюансами. Обратила внимание, что TTS иногда путает ударение в словах.
TTS – это быстрый вариант озвучки, где голоса приближены к живым, а сам TTS пытается выделить диалоги интонацией.
Но машина не всегда полностью понимает и чувствует текст. Иногда диалоги выделяются интонацией и тембром голоса не так ярко, как хотелось бы. Надеюсь, что в будущем и это будет усовершенствовано.

С первой задачей мы справились. TTS заговорила. Но хочется добавить ей живых интонаций. Чтобы озвучка не была слишком роботоподобной, нужно продолжить обучение. Скажем так: таблицу умножения TTS выучила, базу понимает. Пришло время сложных логарифмов, уравнений и формул.

Одно дело — обучить нейросеть работать с текстом и звуком, совсем другое — показать, где нужно делать логические паузы

Или, например, где текст должен звучать более неформально, а где — строго и по-деловому. Ведь странно, если non-fiction о гостиничном деле будет прочитан так же, как любовно-фантастический роман.

Для этого существуют трансформеры (Generative Pre‑trained Transformers или попросту GPT)

Это технологии (дополнительные модели обучения), которые помогают «оживить» TTS. С помощью трансформеров нейросеть учится:

Делать логические паузы;
«Играть» интонациями (повышать и понижать тон);
Понимать контекст (и, исходя из этого, изменять два предыдущих пункта).

Трансформеры работают с помощью энкодеров и декодеров.

Энкодер преобразует текст книги в данные, которую «поглощает» нейросеть;
Декодер преобразует эти данные в новый тип информации. В нашем случае, текст становится аудио.

Так же работает, например, и переводчик. Текст на русском превращается в данные, эти данные обрабатываются нейросетью и на выходе становятся текстом на английском.

Основой для обучения становится голос обычного человека. Это целая процедура: сперва нужно подписать документы на передачу прав на использование своего голоса. Точно так же, как автор передает издательству права на распространение произведения. После человек наговаривает определенное количество слов и фраз (помним — нейросети нужно много информации!). Запись оцифровывается, переводится в цифровые значения и передается нейросети для дальнейшего обучения и синтеза.

Получается своеобразный голосовой конструктор. Нейросеть видит «рисунки» аудиодорожек, изучает их, а потом воспроизводит с тем тоном и интонациями, которым ее научили

Поэтому у разных сервисов TTS могут быть разные голоса. Мужские, женские, помоложе, постарше...

Не стоит думать, что TTS — бездушная и безэмоциональная машина. Конечно, синтез речи тоже ошибается — как и любой человек. Но зачастую сложно угадать, какой текст озвучил чтец, а какой — TTS. Попробуете?

Вот отрывок 1

А вот отрывок 2

Где читает нейросеть?

Отрывок 1

Отрывок 2

Больше всего страхов TTS вызывает у дикторов и чтецов аудиокниг. Посмотрим на другую сторону медали — вот что говорят о росте популярности автоматической озвучки участники проекта Литрес: Чтец

Я воспринимаю TTS не как друга или врага чтеца, а как коллегу/партнера, который не стоит на месте и развивается. Очень удобно преобразовать текст в речь, чтобы прослушать какой-нибудь информационный материал, новости, входящую почту, презентацию… Эта технология развивается быстрыми темпами. Сервис совершенствуется, голоса становятся разнообразнее. А в связи с тем, что человек много времени проводит за компьютером или смартфоном, технология ТТS помогает переключиться и дать отдохнуть зрению.
Что касается чтецов, которые озвучивают книги и переживают, что их заменит синтезированная речь… Этого не стоит бояться тем, кто подходит к профессии диктора/чтеца со знанием дела, постоянно работает и совершенствуется. Тому, кто рассказывает книгу, а не угрюмо, словно робот, начитывает ее. Тому, кто работает не над количеством озвученных книг, а над качеством исполнения.

Насколько я вижу, появляется всё больше и больше роботов для облегчения нашей жизни, и я уверена, ТТS будет развиваться дальше. Так что для меня это скорее друг, помощник.
Уверена, что в ближайшее время ни один робот не сможет прочитать текст так, как это делаю я или мои коллеги. Да, возможно, ИИ подтянется до хорошего уровня, ведь некоторые люди сейчас прекрасно слушают произведения в их исполнении и довольны. Но всё же, искушенный слушатель будет предпочитать живой голос, живые эмоции, живую энергию, ведь ИИ пока не может передать дрожь голоса в трагичные моменты, или, например, смех ребенка. Без работы мы точно не останемся. ТТS была изначально введена для того, чтобы озвучивать книги, которые длительное время не находят своего чтеца. Литрес же заинтересован в том, чтобы работа чтеца тоже была оплачена, поэтому некоторые книги достаются TTS.
Если вы боитесь конкуренции ИИ, становитесь профессионалом в области озвучивания, делайте свой голос уникальным и известным. Тогда вы будете незаменимы и востребованы на рынке.

Озвучка технологией TTS расширяет возможности авторов, а слушателей радует аудиоверсиями книг, на чтение которых не хватает времени. Главное — помнить, что любые нейросети учатся. А учатся они исключительно на наших голосах.

Как опубликовать книгу в интернете? Достаточно загрузить ее в Литрес одним кликом.

#авторам #чтецам #литрес #нейросеть #аудио #нейросети

Нейросеть говорит: как в Литрес озвучивают книги синтезом речи TTS (Text to speech)

Оглавление

Институт благородных нейросетей: зачем им обучаться?

Зачем озвучивать книги с помощью TTS

Трансформеры без Майкла Бэя

Чьим голосом говорит TTS?

Вместо дикторов, или вместе с дикторами?