Не нашли нужную аудиокнигу, психанули и создали платформу для озвучивания книг. История Speechki

Команда Speechki уверена, что у каждой книги должна быть аудиоверсия, и дает им возможность быть «услышанными»

Онлайн-платформа для записи аудиокниг с помощью синтетических голосов

Speechki — онлайн-платформа для создания аудиокниг при помощи нейронных голосов. В списке наших дикторов вы можете увидеть… искусственный интеллект. Да, основная особенность проекта в том, что мы воспроизводим аудиокниги с помощью синтетической речи.

С момента запуска мы записали порядка 700 аудиокниг, которые успешно продаются в интернет-магазинах и приложениях. Ниже вы можете услышать голоса, которые используются для озвучивания.

На данный момент в базе собрано около 200 синтезированных голосов. Дикторы представлены не только на русском языке. Издательства из других стран в восторге от английской, испанской, португальской и французской озвучки. Но на этом мы не останавливаемся, и озвучить своё произведение вы можете на немецком, турецком, японском, и ещё на десятке наиболее популярных языков.

<i>Широкий каталог доступных нейро-голосов</i>
Широкий каталог доступных нейро-голосов

С чего всё началось?

Стартап Speechki появился в 2019 году. В это время у основателей была компания, занимающаяся веб-разработкой. У ребят был большой опыт создания внешних и внутренних продуктов для других компаний, но, как и многие сервисные компании, они думали о создании собственного продукта.

В прошлом бизнесе техническая команда часто проводила эксперименты с речевыми технологиями, например, создавали навыки для «Яндекс.Алисы» и тестировали озвучивание текстовых статей. За последние пару лет технологии синтеза речи заметно улучшились, и это позволило получать качественные аудио, которые можно слушать продолжительное время, не раздражаясь из-за проблем «компьютерных голосов»: орфоэпических ошибок и неверных интонаций.

<i>По данным сайта <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.sostav.ru%2Fpublication%2Fdigital-audio-36115.html&postId=232706" rel="nofollow noreferrer noopener" target="_blank">Sostav</a>, рост рынка didital аудио увеличился в три раза </i>
По данным сайта Sostav, рост рынка didital аудио увеличился в три раза 

Но вернёмся к истории создания Speechki. Началось всё с того, что ребята пытались найти аудио версию нужной книги о бизнесе, но её не было ни на одном ресурсе. Затем история повторилась, но уже с другим произведением. В тот момент во главу угла встал вопрос — почему не у всех книг существует аудиоверсия? В наших реалиях не так просто найти время на чтение, поэтому вариант с прослушиванием отлично подходит для всех. Пообщавшись с экспертами, мы узнали, что что создавать аудиоверсии для всех книг экономически невыгодно.

<i>Аудиоверсии самых популярных книг среди пользователей Storytel</i>
Аудиоверсии самых популярных книг среди пользователей Storytel

Продажи бестселлеров и книг для узкой аудитории разительно отличаются, но создаются они одинаково, в традиционном формате — с дикторами в студии звукозаписи. Так, продажи большинства аудиокниг могут не отбить инвестиции в её производство не только за первый в первый год, а за всё время, пока у издателя есть права на произведение. Да, это работает для популярной литературы, но это крайне малый процент от всех издающихся в мире книг.

<i>Каждый год в мире публикуется 2,2 млн новых произведений вдобавок к 140 млн уже опубликованных</i>
Каждый год в мире публикуется 2,2 млн новых произведений вдобавок к 140 млн уже опубликованных

Традиционная озвучка — нелёгкое и долгое дело. Согласование и проверка документов, подбор диктора, контроль за качеством записи — на всё это уходит невероятно много времени и ресурсов. Поэтому в аудиоформат конвертируется только 4,5% от всех выходящих книг. То есть только 100 тысяч из 2.2 миллиона уникальных произведений, выпускаемых за год.

Эта проблема мотивировала основателей, Дмитрия Абрамова и Сергея Баранова, на создание Speechki. Первые пробы были не слишком удачными — на создание первой аудиокниги, длительностью в 7,5 часов, ушло порядком 120 часов работы редактора. При этом, сам синтез речи занимает буквально 15 минут.

Все эти 120 часов редактор слушал аудиокнигу и исправлял в ней всевозможные неточности: неправильные ударения, ошибки в интонационных конструкциях и произношении отдельных слов, ненужные или недостающие паузы.

120 часов
тратилось на создание восьмичасовой аудиокниги в 2019 году

Несмотря на то, что на запись первой книги ушло много времени, а работа редактора была финансово сопоставима с живым диктором, работающим в студии, мы не отчаялись и не сдались, а продолжили заниматься развитием проекта. На сегодняшний день на обработку одной восьмичасовой книги уходит около 12 часов работы, включая прослушивание и корректировки возможных неточностей. Это в 10 раз меньше, чем в самом начале запуска продукта. Таких результатов мы добились благодаря интеллектуальной системе разметки текста перед синтезом, которая экономит время и позволяет достичь отличного качества речи без дополнительных действий со стороны человека.

<i>За два года работы мы сократили время создания аудиокниги в 10 раз</i>
За два года работы мы сократили время создания аудиокниги в 10 раз

Быстрое получение продукта позволяет расширить ассортимент издательств и самостоятельных авторов в кратчайшие сроки. Это не вершина производительности нашей системы. На ближайшие 3 года наша цель — снизить время производства средней аудиокниги до 40 минут вне зависимости от языка. Нам предстоит долгий и сложный путь, но мы знаем, как этого достичь.

40 минут
мы планируем тратить на запись восьмичасовой аудиокнигой в 2024 году

Уже сейчас мы поставляем издательствам готовые к продаже аудиокниги всего за $400 в течение 1-2 дней. Наши европейские клиенты возвращают инвестиции в производство аудиокниги за 2-3 месяца. И важно заметить, что речь идёт не о бестселлерах, а как правило, о книгах каталога B или С. Это те произведения, которые бы никогда не получили аудиоверсию, если бы не Speechki.

<i>К сожалению, многие интересные книги недоступны в аудиоформате</i>
К сожалению, многие интересные книги недоступны в аудиоформате

Мы не стремимся разрушить традиционную систему создания аудиокниг, но отчётливо видим, что у пользователей меняются привычки в потреблении контента, и аудио-форматы очень активно развиваются. Конечно, есть литература, которая должна быть записана профессиональными дикторами, актёрами или даже самим автором. Но не стоит забывать, что у читателя есть запрос и на тот контент, который может обойтись и без «живого» голоса. У людей есть желание получить информацию в удобном формате, им вовсе не важен звёздный диктор и эмоциональность в преподносимом материале.

Команда Speechki уверена, что сможет сделать из 4,5% озвученных книг, как минимум, 50%. Эта идея очень актуальна, ведь рынок аудио растёт, а у аудитории меняются привычки для потребления контента.

Какие главные преимущества аудиокниги, озвученной ИИ?

  • не нужно подбирать диктора;
  • не нужно согласовывать время и условия его/её работы;
  • ИИ готов работать 24/7;
  • ИИ не устаёт;
  • ИИ не запинается;
  • у ИИ не садится голос;
  • для исправления ошибки ИИ не нужно заново приглашать на студию;
  • ИИ распознаёт и переводит текст в аудиоформат в разы быстрее.

А как это вообще всё работает?

Speechki поддерживает большинство доступных Text-to-Speech движков, делая их звучание значительно лучше, а использование в 10 раз эффективнее именно для аудиокниг.

Как мы уже упоминали, наша интеллектуальная система делает специальную разметку автоматически. Например, на основе тысяч часов аудиокниг, созданных в нашей системе ранее, система может понять, что после определённой запятой нужна интонационная пауза, и самостоятельно добавить в текст тег с паузой нужной продолжительности.

<i>Управление синтезом речи без знаний языка SSML</i>
Управление синтезом речи без знаний языка SSML

По аналогии с этим работают специальные словари, которые помогают справляться с неровностями синтетической речи. При этом, так как разные провайдеры синтетической речи имеют разные требования к такой спец. разметке, то нам приходится адаптироваться под каждого из них. И это ещё одно уникальное преимущество Speechki, так как в рамках одной книги, и даже одного предложения, издательства могут совмещать голоса от разных провайдеров и даже из разных языков.

<i>Speechki предоставляет доступ к лучшим голосам разных провайдеров</i>
Speechki предоставляет доступ к лучшим голосам разных провайдеров

Без подобной системы издательства, просто используя голоса от Google, Amazon или Яндекс, потратили бы не менее 100 часов на производство восьмичасовой аудиокниги с аналогичным качеством, потому что им пришлось бы исправлять все ошибки и делать разметку вручную. Speechki же не только автоматизируют большую часть таких исправлений, но и предоставляют просто интерфейс, который не требуют от юзера специальных навыков и знаний SSML (прим. ред — Speech Synthesis Markup Language, в переводе на русский, язык разметки синтеза речи).

<i>Удобный и многофункциональный редактор Speechki</i>
Удобный и многофункциональный редактор Speechki

Заручились поддержкой Alchemist — ТОП-1 B2B акселератора в мире

В конце 2020 года Speechki подали заявку на участие в одном из известнейших американском акселераторе Alchemist, со строгим фокусом на B2B стартапах. Дедлайн подачи заявки был 1 января 2021 года, и мы отправили заявку буквально за несколько часов до Нового года. Уже в начале января команда получила приглашение на интервью.

Несмотря на успешно пройденное, по собственным ощущениям, интервью, у нашей команды были сомнения насчёт попадания Speechki в ближайший батч Alchemist.

<i>Alchemist — лучший акселератор в мире для B2B-стартапов</i>
Alchemist — лучший акселератор в мире для B2B-стартапов

«Дело в том, что это один из лучших акселераторов мира, и точно ТОП-1 для B2B-стартапов, которым Speechki и является. В него подаются тысячи лучших стартапов со всего мира. Конкуренция просто бешеная. Мы очень хотели этого, верили, но всё равно сомневались в положительном решении их внутренней комиссии и партнеров. Но в итоге через 5 дней после интервью мы уже получили ответ от команды акселератора с поздравлением и приглашением стать одной из 20 команд ближайшего батча».

Дмитрий Абрамов, сооснователь Speechki

Программа стартовала 1 апреля. Всего она продлится 6 месяцев и завершится Демо-Днём, на котором выбранные стартапы будут «питчить» перед широкой аудиторией из более 1000 венчурных инвесторов.

Прошедшие в набор команды через специальный сервис Vault, созданный командой акселератора, имеют доступ к широкой сети инвесторов, менторов, партнеров, корпораций и прессы. Также приятным бонусом идут скидки на онлайн-сервисы и различные услуги от партнеров Alchemist. Например, можно получить до $100,000 на покрытие расходов на сервера AWS, Microsoft Azure или Google Cloud. Это очень серьёзная поддержка на стартапа на ранней стадии.

Планы на ближайшее будущее

Среди наших постоянных клиентов такие мастодонты книжного рынка, как «Эксмо», Storytel, Alpina Digital. Кроме того, мы сейчас в пилотных проектах с крупными мировыми игроками книжного рынка, такими как Hachette Livre, Scribd, OverDrive.

Спасибо, что дочитали до конца! Надеемся, что вам было интересно. Будем рады вашим вопросам и конструктивной критике ниже в комментариях.

9797
71 комментарий

Норм! Будет круто, когда речь станет невозможно отличить от человечьей. А пока корежит.

И вообще, слушать книги - слишком долго :(

9
Ответить

Я слушаю аудиокниги исключительно в машине вместо радио.
1. Сам выбираешь что слушать. 
2. Полезнее, чем просто музыка.

Одна книга 3-4 дня езды по городу. 

14
Ответить

По моему опыту у синтетического голоса есть свои плюсы. Из-за его монотонности он ближе к реальному опыту чтения, когда ты глазами получил информацию в голову, а потом расставляешь в ней интонации. 

2
Ответить

Я слушаю аудиокниги на скорости 1,5-1,75. Хорошо сокращает время.

1
Ответить

да ниче качество просто еслиб сервис не при@уел с ценами! а так пусть в зад себе засунут свои книги и провернут 3 раза

Ответить

Это реально крутой проект. Успехов и продвижения ребятам. 

4
Ответить

Большое спасибо, Дмитрий!

Ответить