Не нашли нужную аудиокнигу, психанули и создали платформу для озвучивания книг. История Speechki

Команда Speechki уверена, что у каждой книги должна быть аудиоверсия, и дает им возможность быть «услышанными»

Онлайн-платформа для записи аудиокниг с помощью синтетических голосов

Speechki — онлайн-платформа для создания аудиокниг при помощи нейронных голосов. В списке наших дикторов вы можете увидеть… искусственный интеллект. Да, основная особенность проекта в том, что мы воспроизводим аудиокниги с помощью синтетической речи.

С момента запуска мы записали порядка 700 аудиокниг, которые успешно продаются в интернет-магазинах и приложениях. Ниже вы можете услышать голоса, которые используются для озвучивания.

На данный момент в базе собрано около 200 синтезированных голосов. Дикторы представлены не только на русском языке. Издательства из других стран в восторге от английской, испанской, португальской и французской озвучки. Но на этом мы не останавливаемся, и озвучить своё произведение вы можете на немецком, турецком, японском, и ещё на десятке наиболее популярных языков.

<i>Широкий каталог доступных нейро-голосов</i>

Стартап Speechki появился в 2019 году. В это время у основателей была компания, занимающаяся веб-разработкой. У ребят был большой опыт создания внешних и внутренних продуктов для других компаний, но, как и многие сервисные компании, они думали о создании собственного продукта.

В прошлом бизнесе техническая команда часто проводила эксперименты с речевыми технологиями, например, создавали навыки для «Яндекс.Алисы» и тестировали озвучивание текстовых статей. За последние пару лет технологии синтеза речи заметно улучшились, и это позволило получать качественные аудио, которые можно слушать продолжительное время, не раздражаясь из-за проблем «компьютерных голосов»: орфоэпических ошибок и неверных интонаций.

<i>По данным сайта <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.sostav.ru%2Fpublication%2Fdigital-audio-36115.html&postId=232706" rel="nofollow noreferrer noopener" target="_blank">Sostav</a>, рост рынка didital аудио увеличился в три раза </i>

Но вернёмся к истории создания Speechki. Началось всё с того, что ребята пытались найти аудио версию нужной книги о бизнесе, но её не было ни на одном ресурсе. Затем история повторилась, но уже с другим произведением. В тот момент во главу угла встал вопрос — почему не у всех книг существует аудиоверсия? В наших реалиях не так просто найти время на чтение, поэтому вариант с прослушиванием отлично подходит для всех. Пообщавшись с экспертами, мы узнали, что что создавать аудиоверсии для всех книг экономически невыгодно.

<i>Аудиоверсии самых популярных книг среди пользователей Storytel</i>

Продажи бестселлеров и книг для узкой аудитории разительно отличаются, но создаются они одинаково, в традиционном формате — с дикторами в студии звукозаписи. Так, продажи большинства аудиокниг могут не отбить инвестиции в её производство не только за первый в первый год, а за всё время, пока у издателя есть права на произведение. Да, это работает для популярной литературы, но это крайне малый процент от всех издающихся в мире книг.

<i>Каждый год в мире публикуется 2,2 млн новых произведений вдобавок к 140 млн уже опубликованных</i>

Традиционная озвучка — нелёгкое и долгое дело. Согласование и проверка документов, подбор диктора, контроль за качеством записи — на всё это уходит невероятно много времени и ресурсов. Поэтому в аудиоформат конвертируется только 4,5% от всех выходящих книг. То есть только 100 тысяч из 2.2 миллиона уникальных произведений, выпускаемых за год.

Эта проблема мотивировала основателей, Дмитрия Абрамова и Сергея Баранова, на создание Speechki. Первые пробы были не слишком удачными — на создание первой аудиокниги, длительностью в 7,5 часов, ушло порядком 120 часов работы редактора. При этом, сам синтез речи занимает буквально 15 минут.

Все эти 120 часов редактор слушал аудиокнигу и исправлял в ней всевозможные неточности: неправильные ударения, ошибки в интонационных конструкциях и произношении отдельных слов, ненужные или недостающие паузы.

120 часов
тратилось на создание восьмичасовой аудиокниги в 2019 году

Несмотря на то, что на запись первой книги ушло много времени, а работа редактора была финансово сопоставима с живым диктором, работающим в студии, мы не отчаялись и не сдались, а продолжили заниматься развитием проекта. На сегодняшний день на обработку одной восьмичасовой книги уходит около 12 часов работы, включая прослушивание и корректировки возможных неточностей. Это в 10 раз меньше, чем в самом начале запуска продукта. Таких результатов мы добились благодаря интеллектуальной системе разметки текста перед синтезом, которая экономит время и позволяет достичь отличного качества речи без дополнительных действий со стороны человека.

<i>За два года работы мы сократили время создания аудиокниги в 10 раз</i>

Быстрое получение продукта позволяет расширить ассортимент издательств и самостоятельных авторов в кратчайшие сроки. Это не вершина производительности нашей системы. На ближайшие 3 года наша цель — снизить время производства средней аудиокниги до 40 минут вне зависимости от языка. Нам предстоит долгий и сложный путь, но мы знаем, как этого достичь.

40 минут
мы планируем тратить на запись восьмичасовой аудиокнигой в 2024 году

Уже сейчас мы поставляем издательствам готовые к продаже аудиокниги всего за $400 в течение 1-2 дней. Наши европейские клиенты возвращают инвестиции в производство аудиокниги за 2-3 месяца. И важно заметить, что речь идёт не о бестселлерах, а как правило, о книгах каталога B или С. Это те произведения, которые бы никогда не получили аудиоверсию, если бы не Speechki.

<i>К сожалению, многие интересные книги недоступны в аудиоформате</i>

Мы не стремимся разрушить традиционную систему создания аудиокниг, но отчётливо видим, что у пользователей меняются привычки в потреблении контента, и аудио-форматы очень активно развиваются. Конечно, есть литература, которая должна быть записана профессиональными дикторами, актёрами или даже самим автором. Но не стоит забывать, что у читателя есть запрос и на тот контент, который может обойтись и без «живого» голоса. У людей есть желание получить информацию в удобном формате, им вовсе не важен звёздный диктор и эмоциональность в преподносимом материале.

Команда Speechki уверена, что сможет сделать из 4,5% озвученных книг, как минимум, 50%. Эта идея очень актуальна, ведь рынок аудио растёт, а у аудитории меняются привычки для потребления контента.

не нужно подбирать диктора;
не нужно согласовывать время и условия его/её работы;
ИИ готов работать 24/7;
ИИ не устаёт;
ИИ не запинается;
у ИИ не садится голос;
для исправления ошибки ИИ не нужно заново приглашать на студию;
ИИ распознаёт и переводит текст в аудиоформат в разы быстрее.

Speechki поддерживает большинство доступных Text-to-Speech движков, делая их звучание значительно лучше, а использование в 10 раз эффективнее именно для аудиокниг.

Как мы уже упоминали, наша интеллектуальная система делает специальную разметку автоматически. Например, на основе тысяч часов аудиокниг, созданных в нашей системе ранее, система может понять, что после определённой запятой нужна интонационная пауза, и самостоятельно добавить в текст тег с паузой нужной продолжительности.

<i>Управление синтезом речи без знаний языка SSML</i>

По аналогии с этим работают специальные словари, которые помогают справляться с неровностями синтетической речи. При этом, так как разные провайдеры синтетической речи имеют разные требования к такой спец. разметке, то нам приходится адаптироваться под каждого из них. И это ещё одно уникальное преимущество Speechki, так как в рамках одной книги, и даже одного предложения, издательства могут совмещать голоса от разных провайдеров и даже из разных языков.

<i>Speechki предоставляет доступ к лучшим голосам разных провайдеров</i>

Без подобной системы издательства, просто используя голоса от Google, Amazon или Яндекс, потратили бы не менее 100 часов на производство восьмичасовой аудиокниги с аналогичным качеством, потому что им пришлось бы исправлять все ошибки и делать разметку вручную. Speechki же не только автоматизируют большую часть таких исправлений, но и предоставляют просто интерфейс, который не требуют от юзера специальных навыков и знаний SSML (прим. ред — Speech Synthesis Markup Language, в переводе на русский, язык разметки синтеза речи).

<i>Удобный и многофункциональный редактор Speechki</i>

В конце 2020 года Speechki подали заявку на участие в одном из известнейших американском акселераторе Alchemist, со строгим фокусом на B2B стартапах. Дедлайн подачи заявки был 1 января 2021 года, и мы отправили заявку буквально за несколько часов до Нового года. Уже в начале января команда получила приглашение на интервью.

Несмотря на успешно пройденное, по собственным ощущениям, интервью, у нашей команды были сомнения насчёт попадания Speechki в ближайший батч Alchemist.

<i>Alchemist — лучший акселератор в мире для B2B-стартапов</i>

«Дело в том, что это один из лучших акселераторов мира, и точно ТОП-1 для B2B-стартапов, которым Speechki и является. В него подаются тысячи лучших стартапов со всего мира. Конкуренция просто бешеная. Мы очень хотели этого, верили, но всё равно сомневались в положительном решении их внутренней комиссии и партнеров. Но в итоге через 5 дней после интервью мы уже получили ответ от команды акселератора с поздравлением и приглашением стать одной из 20 команд ближайшего батча».
Дмитрий Абрамов

Программа стартовала 1 апреля. Всего она продлится 6 месяцев и завершится Демо-Днём, на котором выбранные стартапы будут «питчить» перед широкой аудиторией из более 1000 венчурных инвесторов.

Прошедшие в набор команды через специальный сервис Vault, созданный командой акселератора, имеют доступ к широкой сети инвесторов, менторов, партнеров, корпораций и прессы. Также приятным бонусом идут скидки на онлайн-сервисы и различные услуги от партнеров Alchemist. Например, можно получить до $100,000 на покрытие расходов на сервера AWS, Microsoft Azure или Google Cloud. Это очень серьёзная поддержка на стартапа на ранней стадии.

Первый онлайн-ивент нашего набора в Alchemist Accelerator

Среди наших постоянных клиентов такие мастодонты книжного рынка, как «Эксмо», Storytel, Alpina Digital. Кроме того, мы сейчас в пилотных проектах с крупными мировыми игроками книжного рынка, такими как Hachette Livre, Scribd, OverDrive.

Спасибо, что дочитали до конца! Надеемся, что вам было интересно. Будем рады вашим вопросам и конструктивной критике ниже в комментариях.

Не нашли нужную аудиокнигу, психанули и создали платформу для озвучивания книг. История Speechki

С чего всё началось?

Какие главные преимущества аудиокниги, озвученной ИИ?

А как это вообще всё работает?

Заручились поддержкой Alchemist — ТОП-1 B2B акселератора в мире

Планы на ближайшее будущее