«Озвучить всё»: подборка лучших voice-tech сервисов

Вместе с развитием Text-to-Speech (далее — TTS) технологий активно появляются цифровые продукты, основанные на этих технологиях и обеспечивающие пользователей синтезированными голосами.

Их можно применять в различных сферах бизнеса: для создания голосовых помощников, для озвучивания текстов, книг и видеоигр, для применения в учебных и рабочих процессах.

Предлагаем вам ознакомиться с самыми перспективными, на наш взгляд, стартапами и компаниями voice-tech отрасли.

Многим людям гораздо удобнее воспринимать информацию на слух;

Аудиоконтент подойдёт людям с ослабленным слухом;

Прослушивание каких-либо материалов можно совмещать с другими делами, когда ваши руки и глаза заняты чем-то другим;

Аудиоформат добавит изюминку, разнообразив генерируемый вами контент;

TTS значительно экономит время и бюджеты, необходимые для записи аудиодорожки.

А теперь давайте перейдём к подборке сервисов, в которых технологии синтеза речи являются ключевыми.

Кто: Replica

Для чего: для озвучивания видеоигр и фильмов

Цена: $24 за 4 часа озвучки, $300 за 100 часов.

Сервис с фокусом на создания аудио для видеоигр и анимационных фильмов.

Видео: YouTube / Replica Studio

Replica о себе: «Наша модель искусственного интеллекта учится играть, копируя уникальные речевые модели, произношение и эмоциональный диапазон реальных голосовых актеров».

Преимущества: а) есть возможность интеграции через API; б) можно подключить к проекту на Unreal Engine, Unity и других профессиональных инструментах; в) наличие визуального редактора.

Кто: WellSaid Labs

Для чего: сервис для конвертации диджитал-контента в формат аудио

Цена: от $99 в месяц (формат подписки)

WellSaid позиционирует себя как SaaS с собственными синтетическими голосами с фокусом на индивидуальных криейторах и командами создания контента в компаниях.

Видео: YouTube / WellSaid

Преимущества: а) наличие визуального редактора (хоть и без фонемной записи); б) есть возможность создания персонального нейро-голоса для компании; в) хорошо работает как с короткими аудио, так и продолжительным контентом; г) есть возможность интеграции через API.

Кто: Retell

Для чего: сервис для озвучивания статей на сайтах онлайн-СМИ и блогах

Цена: от 700 руб/мес (зависит от количества и объема озвучиваемых материалов)

<i>Скриншот сайта Sports.ru. На изображении выделен плеер, озвучивающий статью</i>

Сервис позиционирует себя, как AdTech сервис для изданий, превращающий их текстовый контент в формат подкаста с возможностью последующей интеграции рекламных аудиороликов. Компания предоставляет новостным сайтам и контент-проектам новый инструмент монетизации и сбора статистики прослушиваний, с возможностью размещения создаваемого аудиоконтента на сторонних площадках. Озвучивать отдельные материалы неудобно, так как сервис заточен под потоковую и массовую публикацию, присущую СМИ и блогам. Работает в формате «поставил и забыл».

Преимущества: а) быстрое подключение за 10 минут при наличии у сайта стандартного RSS-фида; б) наличие выбора голоса озвучивания (около 10 русскоязычных моделей); в) возможность интеграции аудиорекламы; г) личный кабинет с доступом к статистике прослушиваний.

Кто: AWS Polly

Для чего: движок синтетической речи от Amazon

Цена: $16 за озвучивание 1 млн. символов

Провайдер синтеза речи, который обеспечивает стартапы и компании синтезированными голосами. Сервис преобразует текст в естественную речь, помогает разрабатывать приложения с поддержкой речевых интерфейсов. Amazon Polly поддерживает десятки языков, с несколькими голосами для каждого из них.

Помимо стандартных технологий Text-to-Speech Amazon Polly содержит голоса, которые были созданы с помощью нейронного преобразования текста в речь (Neural Text-to-Speech). Они отличаются более высоким качеством. Для крупных брендов (за очень дорого) дают возможность создать индивидуальный голос по программе «Brand Voice».

Преимущества: а) есть два стиля повествования — Newscaster, подходящий для новостных и журналистских текстов, и Conversational — для двусторонней связи, например, для приложений телефонии; б) низкая стоимость (однако, нет визуального интерфейса — работает только по API); в) предоставляют 5 млн символов в месяц бесплатно на протяжении первого года использования.

Кто: Speechki

Для чего: сервис для записи аудиокниг нейронными голосами

Цена: от $30 за час готовой аудиокниги

<i>Скриншот интерфейса редактора аудиокниги Speechki</i>

Сервис позиционирует себя как b2b-платформа, имеющая строгий фокус на создании именно аудиокниг. В каталоге сервиса собрано более 200 синтезированных голосов на 70 языках, включая английский, немецкий, французский, русский, испанский и многие другие.

Поддерживаемый формат загрузки текста — docx. На обработку и конвертацию текста, даже самого большого объёма, уходит около 10-15 минут. Несмотря на заявленный аудиокнижный фокус, можно конвертировать в аудиоформат текстовые статьи, заметки, инструкции — всё, что удастся засунуть в docx-файл.

Преимущества: а) идеально подойдет, если ваша задача связана с созданием аудиокниги; б) имеется визуальный редактор для внесения изменений в текст для исправления слов или звучания; в) поддерживает корректировку пауз, фонемную запись слов, добавление звуковых эффектов и музыкального сопровождения.

Кто: Sonantic

Для чего: сервис для создания реплик к видеоиграм и фильмам

Цена: по запросу

Сервис фокусируется на производстве игр и анимационных фильмов, «позволяет ускорить рабочие процессы и увеличить количество рассказанных историй». Основатели Sonantic имеют опыт работы в логопедии, языковой терапии и даже были звукорежиссёрами в Голливуде. Такой опыт и связи с актёрами позволяют компании создавать максимально приближенные к реальности голоса, поддерживающие эмоциональную окраску.

Видео: YouTube / Sonantic

Преимущества: в каталоге голосов присутствуют модели речи профессиональных актёров. Это позволяет добиться высочайшего уровня озвучивания, который необходим в сфере развлечений.

Кто: Speechify

Для чего: для персонального использования при преобразовании текста в аудио

Цена: $7.99 в месяц

Это мобильное и десктоп приложение, которое позволяет людям с дислексией, СДВГ, слабым зрением, сотрясением мозга и другими особенностями, затрудняющими процесс чтения, конвертировать любой текст в формат аудио при помощи синтезированной речи.

Speechify работают с такими сервисами, как Gmail, Yahoo, поддерживают документы, загруженные в Google Docs и PDF-форматы, а также озвучивают тексты для CNN и Bloomberg.

Видео: YouTube / Speechify

Преимущества: а) Наличие расширения для Google Chrome; б) удобно для частного использования; в) инклюзивность; г) наличие интеграции с некоторыми часто используемыми в быту сервисами.

Кто: Respeecher

Для чего: для клонирования голоса и создания аудио в области развлечений

Цена: $200 в месяц за доступ к 10 англоязычным голосам

Сервис Respeecher клонирует голоса, позволяя озвучивать ими текстовый контент, по их словам, неотличимо по звуку от оригинального говорящего. Например, они смогли превратить речь одного из дикторов в голос Барака Обамы.

Видео: YouTube / Respeecher

Их платформа подходит для режиссёров, разработчиков видеоигр и всех, кто создает развлекательный контент. Respeecher отмечает особенную этичность в своей компании.

Преимущества: а) возможность клонирования голоса; б) свой маркетплейс голосов.

Кто: Spik AI

Для чего: для конвертации коротких текстов в аудиоформат

Цена: free

Бесплатное приложение, разработанное Oveit (прим. — компания, которая занимается внедрением передовых технологий в платежи с замкнутым циклом). Spik.AI позволяет генерирует реалистично звучащий звук из текста.

<i>Скриншот главной страницы Spik.AI</i>

Незарегистрированный пользователь может создавать файлы из текста длиной до 300 символов. После регистрации юзер может загружать тексты до 1000 символов. Услуги компании отлично подойдут для создания аудиорекламы или конвертации коротких текстов. Обещают в скором времени добавить расшифровку записи голоса.

Преимущества: а) бесплатный сервис, позволяющий «вручную» озвучивать непродолжительный контент на английском языке; б) есть выбор акцента (американский, британский, австралийский); в) при владении языком разметки SSML можно контролировать некоторые параметры синтеза речи.

Кто: Acapela

Для чего: голосовые решения для обеспечения доступа к информации в нише транспорта

Цена: по запросу

Acapela создает персонализированные цифровые голоса для обеспечения доступа к информации. В их каталоге 24 языка и более 100 нейро-голосов, включая различные акценты. Имеется отдельный фокус на сфере транспорта.

Преимущества: а) широкий каталог поддерживаемых языков; б) есть готовые решения для сферы транспорта и образования.

Здесь далеко не весь список компаний и стартапов voice-tech отрасли. В мире существует несколько десятков, а то и сотен платформ, работающих с синтезированными голосами. В комментариях к нашей статье вы можете рассказать о сервисах, которых, по вашему мнению, здесь не хватает, или поделиться опытом использования платформ из нашей подборки.

Спасибо, что дочитали нашу статью до конца! Мы будем рады обратной связи от всех читателей VC.ru.

«Озвучить всё»: подборка лучших voice-tech сервисов

Чем хорош синтез речи?