Не нашли нужную аудиокнигу, психанули и создали платформу для озвучивания книг. История Speechki
Команда Speechki уверена, что у каждой книги должна быть аудиоверсия, и дает им возможность быть «услышанными»
Speechki — онлайн-платформа для создания аудиокниг при помощи нейронных голосов. В списке наших дикторов вы можете увидеть… искусственный интеллект. Да, основная особенность проекта в том, что мы воспроизводим аудиокниги с помощью синтетической речи.
С момента запуска мы записали порядка 700 аудиокниг, которые успешно продаются в интернет-магазинах и приложениях. Ниже вы можете услышать голоса, которые используются для озвучивания.
На данный момент в базе собрано около 200 синтезированных голосов. Дикторы представлены не только на русском языке. Издательства из других стран в восторге от английской, испанской, португальской и французской озвучки. Но на этом мы не останавливаемся, и озвучить своё произведение вы можете на немецком, турецком, японском, и ещё на десятке наиболее популярных языков.
С чего всё началось?
Стартап Speechki появился в 2019 году. В это время у основателей была компания, занимающаяся веб-разработкой. У ребят был большой опыт создания внешних и внутренних продуктов для других компаний, но, как и многие сервисные компании, они думали о создании собственного продукта.
В прошлом бизнесе техническая команда часто проводила эксперименты с речевыми технологиями, например, создавали навыки для «Яндекс.Алисы» и тестировали озвучивание текстовых статей. За последние пару лет технологии синтеза речи заметно улучшились, и это позволило получать качественные аудио, которые можно слушать продолжительное время, не раздражаясь из-за проблем «компьютерных голосов»: орфоэпических ошибок и неверных интонаций.
Но вернёмся к истории создания Speechki. Началось всё с того, что ребята пытались найти аудио версию нужной книги о бизнесе, но её не было ни на одном ресурсе. Затем история повторилась, но уже с другим произведением. В тот момент во главу угла встал вопрос — почему не у всех книг существует аудиоверсия? В наших реалиях не так просто найти время на чтение, поэтому вариант с прослушиванием отлично подходит для всех. Пообщавшись с экспертами, мы узнали, что что создавать аудиоверсии для всех книг экономически невыгодно.
Продажи бестселлеров и книг для узкой аудитории разительно отличаются, но создаются они одинаково, в традиционном формате — с дикторами в студии звукозаписи. Так, продажи большинства аудиокниг могут не отбить инвестиции в её производство не только за первый в первый год, а за всё время, пока у издателя есть права на произведение. Да, это работает для популярной литературы, но это крайне малый процент от всех издающихся в мире книг.
Традиционная озвучка — нелёгкое и долгое дело. Согласование и проверка документов, подбор диктора, контроль за качеством записи — на всё это уходит невероятно много времени и ресурсов. Поэтому в аудиоформат конвертируется только 4,5% от всех выходящих книг. То есть только 100 тысяч из 2.2 миллиона уникальных произведений, выпускаемых за год.
Эта проблема мотивировала основателей, Дмитрия Абрамова и Сергея Баранова, на создание Speechki. Первые пробы были не слишком удачными — на создание первой аудиокниги, длительностью в 7,5 часов, ушло порядком 120 часов работы редактора. При этом, сам синтез речи занимает буквально 15 минут.
Все эти 120 часов редактор слушал аудиокнигу и исправлял в ней всевозможные неточности: неправильные ударения, ошибки в интонационных конструкциях и произношении отдельных слов, ненужные или недостающие паузы.
Несмотря на то, что на запись первой книги ушло много времени, а работа редактора была финансово сопоставима с живым диктором, работающим в студии, мы не отчаялись и не сдались, а продолжили заниматься развитием проекта. На сегодняшний день на обработку одной восьмичасовой книги уходит около 12 часов работы, включая прослушивание и корректировки возможных неточностей. Это в 10 раз меньше, чем в самом начале запуска продукта. Таких результатов мы добились благодаря интеллектуальной системе разметки текста перед синтезом, которая экономит время и позволяет достичь отличного качества речи без дополнительных действий со стороны человека.
Быстрое получение продукта позволяет расширить ассортимент издательств и самостоятельных авторов в кратчайшие сроки. Это не вершина производительности нашей системы. На ближайшие 3 года наша цель — снизить время производства средней аудиокниги до 40 минут вне зависимости от языка. Нам предстоит долгий и сложный путь, но мы знаем, как этого достичь.
Уже сейчас мы поставляем издательствам готовые к продаже аудиокниги всего за $400 в течение 1-2 дней. Наши европейские клиенты возвращают инвестиции в производство аудиокниги за 2-3 месяца. И важно заметить, что речь идёт не о бестселлерах, а как правило, о книгах каталога B или С. Это те произведения, которые бы никогда не получили аудиоверсию, если бы не Speechki.
Мы не стремимся разрушить традиционную систему создания аудиокниг, но отчётливо видим, что у пользователей меняются привычки в потреблении контента, и аудио-форматы очень активно развиваются. Конечно, есть литература, которая должна быть записана профессиональными дикторами, актёрами или даже самим автором. Но не стоит забывать, что у читателя есть запрос и на тот контент, который может обойтись и без «живого» голоса. У людей есть желание получить информацию в удобном формате, им вовсе не важен звёздный диктор и эмоциональность в преподносимом материале.
Команда Speechki уверена, что сможет сделать из 4,5% озвученных книг, как минимум, 50%. Эта идея очень актуальна, ведь рынок аудио растёт, а у аудитории меняются привычки для потребления контента.
Какие главные преимущества аудиокниги, озвученной ИИ?
- не нужно подбирать диктора;
- не нужно согласовывать время и условия его/её работы;
- ИИ готов работать 24/7;
- ИИ не устаёт;
- ИИ не запинается;
- у ИИ не садится голос;
- для исправления ошибки ИИ не нужно заново приглашать на студию;
- ИИ распознаёт и переводит текст в аудиоформат в разы быстрее.
А как это вообще всё работает?
Speechki поддерживает большинство доступных Text-to-Speech движков, делая их звучание значительно лучше, а использование в 10 раз эффективнее именно для аудиокниг.
Как мы уже упоминали, наша интеллектуальная система делает специальную разметку автоматически. Например, на основе тысяч часов аудиокниг, созданных в нашей системе ранее, система может понять, что после определённой запятой нужна интонационная пауза, и самостоятельно добавить в текст тег с паузой нужной продолжительности.
По аналогии с этим работают специальные словари, которые помогают справляться с неровностями синтетической речи. При этом, так как разные провайдеры синтетической речи имеют разные требования к такой спец. разметке, то нам приходится адаптироваться под каждого из них. И это ещё одно уникальное преимущество Speechki, так как в рамках одной книги, и даже одного предложения, издательства могут совмещать голоса от разных провайдеров и даже из разных языков.
Без подобной системы издательства, просто используя голоса от Google, Amazon или Яндекс, потратили бы не менее 100 часов на производство восьмичасовой аудиокниги с аналогичным качеством, потому что им пришлось бы исправлять все ошибки и делать разметку вручную. Speechki же не только автоматизируют большую часть таких исправлений, но и предоставляют просто интерфейс, который не требуют от юзера специальных навыков и знаний SSML (прим. ред — Speech Synthesis Markup Language, в переводе на русский, язык разметки синтеза речи).
Заручились поддержкой Alchemist — ТОП-1 B2B акселератора в мире
В конце 2020 года Speechki подали заявку на участие в одном из известнейших американском акселераторе Alchemist, со строгим фокусом на B2B стартапах. Дедлайн подачи заявки был 1 января 2021 года, и мы отправили заявку буквально за несколько часов до Нового года. Уже в начале января команда получила приглашение на интервью.
Несмотря на успешно пройденное, по собственным ощущениям, интервью, у нашей команды были сомнения насчёт попадания Speechki в ближайший батч Alchemist.
Программа стартовала 1 апреля. Всего она продлится 6 месяцев и завершится Демо-Днём, на котором выбранные стартапы будут «питчить» перед широкой аудиторией из более 1000 венчурных инвесторов.
Прошедшие в набор команды через специальный сервис Vault, созданный командой акселератора, имеют доступ к широкой сети инвесторов, менторов, партнеров, корпораций и прессы. Также приятным бонусом идут скидки на онлайн-сервисы и различные услуги от партнеров Alchemist. Например, можно получить до $100,000 на покрытие расходов на сервера AWS, Microsoft Azure или Google Cloud. Это очень серьёзная поддержка на стартапа на ранней стадии.
Планы на ближайшее будущее
Среди наших постоянных клиентов такие мастодонты книжного рынка, как «Эксмо», Storytel, Alpina Digital. Кроме того, мы сейчас в пилотных проектах с крупными мировыми игроками книжного рынка, такими как Hachette Livre, Scribd, OverDrive.
Спасибо, что дочитали до конца! Надеемся, что вам было интересно. Будем рады вашим вопросам и конструктивной критике ниже в комментариях.
Норм! Будет круто, когда речь станет невозможно отличить от человечьей. А пока корежит.
И вообще, слушать книги - слишком долго :(
Я слушаю аудиокниги исключительно в машине вместо радио.
1. Сам выбираешь что слушать.
2. Полезнее, чем просто музыка.
Одна книга 3-4 дня езды по городу.
По моему опыту у синтетического голоса есть свои плюсы. Из-за его монотонности он ближе к реальному опыту чтения, когда ты глазами получил информацию в голову, а потом расставляешь в ней интонации.
Я слушаю аудиокниги на скорости 1,5-1,75. Хорошо сокращает время.
да ниче качество просто еслиб сервис не при@уел с ценами! а так пусть в зад себе засунут свои книги и провернут 3 раза
Это реально крутой проект. Успехов и продвижения ребятам.
Большое спасибо, Дмитрий!
Всё вроде красиво так написано. Успехов авторам! Остальное в личку)
В личке ответили. Спасибо, Андрей!
Спасибо интересный проект, не нашёл примеров книг, хотелось бы послушить оценить.
Нас часто можно найти на площадках, если отсортировать каталог по чтецу. Но зависит от площадки, иногла именуют "Робот Иван", как на Storytel https://www.storytel.com/ru/ru/narrators/233968-Robot-Ivan или Искусственный интелект Иван, как на Литрес https://www.litres.ru/robot-ivan/
А как решаете вопрос с синтезом специфических слов?
Он 100% лагнет на особенных терминах + аббревиатурах, а следовательно, для учебной литературы это уже не так клёво, как для художественной (хотя и в ней есть специфические географические места, например).
Ну и в некоторых книгах встречается то английский, то цитатка на латыни, то русский - как с этим работаете?
Сергей, всё верно говорите. Ошибки возможны, но прелесть в том, что мы можем их исправлять моментально. Благодаря нашему редактору издательство может установить нужное ударение, произношение или заменить аббревиатуру, которую сложно воспринять на слух (все-таки есть отличия в потреблении текстовой и аудио версий книги).
Тоже самое и про иностранные слова, предложения или фразы. М все это можем объединять. Постарались описать эти возможности в части "А как это вообще всё работает?", но кажется, что стоит выпустить отдельный материал с подробной демонстрацией того, как все эти ошибки и сложные случае преодолевать с помощью Speechki.
судя по значку Вы с яблока. Ради интереса попробуйте в ibooks послушать книги. Именно в синтезе речи. Ябло это умеет по дефолту, функция для слабовидящих. В настройках телефона загрузите голоса (есть HD версии, мужские/женские, разные языки). И потом в самой читалке включите воспроизведение. Книжку подберите с цитатами на разных языках, с аббревиатурами итд. Вот и услышите как это звучит в реале. Движки плюс-минус одинаковые, поэтому разница с другими движками будет не сильно большой.
Послушал.
Не впечатлило. От слова совсем.
Ощущение, что api синтезатора было форкнуто с какого то индийского репо.
Англоязычных версия больше зашла.....
Удачи Вам, работы ещё много..но у Вас , все получится =) Ждём продолжения!)
ЗЫ: а как с Авторскими правами , с точки зрения бизнеса (для юзеров vc интересно будет )
Ярослав, спасибо за отзыв и пожелания! Мы очень активно работаем над тем, чтобы звук и естественность речи улучшались, чтобы через какое-то время впечатлить и вас, и многих других слушателей, которые всё еще относятся к синтетической речи скептически.
На счёт авторских прав, с ними нет никаких проблем. Мы не производим аудиокниги сами и не продаем их, а предоставляем наш сервис для издательств, позволяя им быстро и дешево расширить свои аудио каталоги. А у этих издательств права, естественно, есть.
Лень было всё читать. Много букв. Но сама себе озвучивала книги, когда это ещё не было мейстримом. В году так 2005-2006м. Записывала голосом Nikolai Digalo. Резала на CD-болванки и слушала на своём CD-плеере.
Потом, года 4 назад, вновь пользовалась синтетическим голосом. На этот раз в iBooks на iPhone. И до сих пор использую, когда момент в книге очень интересный, но надо отвлечь глаза и руки от экрана.
Статья получилась объемной, это да. Честно понадеялись, что попадем в число тех материалов, у которых на vc.ru появляется автоматическая озвучка. Это бы облегчило ознакомление. Спасибо за комментарий. Надо сказать, что за 4 года речевые технологии сделали невероятный прыжок в качестве.
Даа обесценивайте труд дикторов полностью , уроды ! Статья хорошая 👍
Андрей, мы писали в статье, что не хотим забирать хлеб у дикторов. Мы уверены, что те книги (4.5% от всех выпускаемых), которые сейчас озвучиваются с помощью дикторов, продолжат создаваться традиционным способом, а вот те 95.5%, которые никогда бы не получили аудиоверсию ранее, мы бы хотели взять на себя.
Спасибо за отзыв о качестве статьи!
До чего дошел прогресс!
До невиданных чудес!
...
Вкалывают роботы,
А не человек.
роботам тоже нужна работа :D
Иногда использую обычный гугловский синтезатор речи через тот же fbreader. Куашет любой стандартный книжный вариант. Поначалу непривычно, но через минут пять втягиваешься и не обращаешь внимание на монотонный голос и кривые ударения. Для художественной литературы сомнительно, для фикшена сносно.
Спасибо за комментарий. Да, синтез речи всё еще неидеален и отличается от человеческой речи. Однако, мы усердно работаем нам тем, чтобы прослушивание аудио, записанного ИИ, было привычным и приятным с самого начала. Причем вне зависимости от жанра.
Очень збс!
Спасибо!
Мне нужно перевести программу обучения на русский, но я не хочу это делать своим голосом. Можно как то использовать вашу технологию?
Сейчас бы в большей степени заточены под книги и их конвертацию в аудио формат. Но некоторые пользователи озвучивают статьи, инструкции, материалы для аудиогидов. Русский язык у нас есть, и он звучит хорошо. Поэтому можете сформировать все ваши материалы в документ docx, разделить его логические части заголовками и "скормить" его в Speechki. По итогу вы сможете скачать ваши материалы либо единым аудиофайлом, либо отдельными с разбивкой по обозначенным главам.
Да, идея хорошая, ничего не скажешь. Дальнейшего совершенствования алгоритмов озвучки, интонаций, вот этого всего. Для нон-фикшена нужно не так много, по большому счету. Видимо, я вами озвученную книжку на альпине слушать начала. Сначала плевалась, что не человек, а так-то понимаю - людьми все не озвучить.
Большое спасибо за отзыв! Конечно, если сравнить две аудиокниги, одну записанную синтезом в Speechki, а другую профессиональным диктором, то 99 человек из 100 выберут аудиокнигу от диктора. Поэтому часть книг, включая наиболее популярные и востребованные, по-прежнему будут озвучиваться людьми, а что касается длиннющего "хвоста" из неиспользованных прав на произведения, которые простаивают без аудио версии, то тут мы и видим нашу максимальную пользу.
С одной стороны, мы хотим помогать читателям/слушателям иметь доступ ко всему нужному им контенту в удобном для них формате, а издательствам монетизировать этот контент и быть в прибыли.
Все это очень круто!
Спасибо, Алексей!
Ваша история крутая и перспективная. Успехов!
Павел, большое спасибо!
Проект интересный, удачи ребятам)
Сергей, спасибо вам!
Это просто супер!
Признаюсь, я часто слушаю книги в озвучке текущего голоса в гугл книгах)) к этому привыкаешь, но ваши дикторы - бомба) Срочно продайте технологию гугл, пусть сделают русский голос в гугл книгах лучше)
Я хочу озвучить собственную книжку. Где мне этоу программу купить?
Вы можете воспользоваться нашим сервисом на нашем сайте https://speechki.org/. Зарегистрируйтесь, загрузите свою книгу в формате docx, выберите подходящий голос.
Интересно, а возможно реализовать разноголосое чтение? Или хотя бы разбивку на разный пол? Как в аудио-спектаклях. :)
Разноголосое чтение у нас уже реализовано. А так как у нас есть и мужские и женские голоса, то можно озвучивать и с разбивкой на разный пол чтецов.
А юридически как всё устроено? Вы же воспроизводите и продаете защищенный авторскими правами контент.
- про продаете в статье не сказано, это же B2B решение
Михаил, в комментарии выше, верно заметил, что мы не продаем контент. Мы работаем с издательствами, которые используют нас сервис как услугу по записи аудиокниг, аналогично тому, если бы они пришли заказать озвучивание в студию звукозаписи. Только в случае со Speechki это можно сделать прямо в браузере, без личшних движений и долгих согласований.
Попробовал затестить, но споткнулся на этапе upload. Какая то сырая реализация
Олег, напишите нам на [email protected] c радостью поможем разобраться и решить все возникшие трудности с тестированием нашего сервиса.
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Я актёр радиоспектаклей ( играл до Эпидемии каждый год по 7 месяцев в Париже - по французски ; 5 месяцев в Москве по-русски. Теперь, из-за эпдемии, потерял работу. Посоветуйте радиостанцию, куда бы я мог устроиться.
[email protected]
+7 968-528-84-05
Нет аудиокниг Платошкина Н.Н. , что можно сделать для появления его аудиокниг ?
Сервис кончился? Аж зубы сводит, как хочется послушать Мисиму или Селина во время смены на заводе, а их чтецы профессиональные не удосуживаются озвучить.