Озвучка для нового поколения: лучше, дешевле, быстрее

Человеческий голос – потрясающе мощный инструмент, способный передавать огромный спектр эмоций. Один тембр может заставить нас плакать от радости или печали, а другой – вогнать в сон от тоски и скуки. И все это определяется уникальными голосовыми связками и личностью говорящего, который точно доносит до нас информацию и эмоции. Именно поэтому талантливых актеров озвучки найти не так-то и просто, а сделать хороший аудио продукт стоит немалых денег и времени.

Давайте посмотрим на процесс поближе. Для того, чтобы сделать качественную озвучку вам понадобится (как минимум) хорошая, профессиональная звукозаписывающая студия (а стоят они совсем недешево) и «окошко» в забитом расписании вашего любимого актера. В зависимости от объема будущего продукта это «окошко» может быть от пары часов до пары недель или даже месяцев – и за все это время вы будете платить арендную плату, зарплаты сотрудников, налоги, страховку и всякие прочие накладные расходы. Для того, чтобы записать книгу объемом примерно 350 страниц, вам придется выложить, по вполне скромным подсчетам, где-то в районе $1000-$5000. Добавим к этому монтаж, редактирование, повторную запись для исправления ошибок и прочее, и в результате получается вполне серьезное капиталовложение.

А что, если бы вам сказали, что этому процессу (и ценнику) существует прекрасная альтернатива, и что вы можете записать свою аудиокнигу всего за $100? Такое вообще возможно? А вот и да! Если в нашей повседневной жизни уже есть Алекса, Сири, Гугл-Ассистент и прочие виртуальные персонажи, помогающие нам выполнять различные бытовые задачи, то почему бы не взять примерно ту же самую идею и логически продолжить ее, в результате чего у вас под рукой окажется мощный, гибкий, но экономный инструментарий?

Несколько компаний-первопроходцев на сегодняшнем рынке уже делают именно это – они разрабатывают голосовых роботов, которые делают процесс быстрее, дешевле, и гораздо проще. Независимо от того, какую конкретно технологию они используют – применяют ли они нейронные сети, искусственный интеллект или глубокое обучение; создают ли они голоса, звучащие как роботы из старого научно-фантастического фильма, или используют сэмплы человеческого голоса для создания более естественного, интуитивно приятного и понятного звука – их роботы, преобразующие текст в речь, могут использоваться в широком ряде ситуаций, от чтения новостей и работы операторов в колл-центрах до создания аудиокниг, предоставления моментального автоматического устного перевода и многого, многого другого.

Среди компаний, занимающихся подобными разработками, есть такие гиганты как Амазон со своими проектом Polly и IBM, чьего робота зовут Watson – они создают недорогих высокопроизводительных роботов. Другие представители индустрии, как то, Acapela, ResponsiveVoice и ReadSpeaker, конкурируют в несколько другом сегменте рынка, в котором оплата базируется не на количестве преобразованных слов, а на годовой подписке. Каждый из таких продуктов имеет свои плюсы и минусы, использует разные подходы и в результате предоставляет пользователям разные уровни скорости, качества и цены, которые удовлетворяют потребности их соответствующей целевой клиентуры.

Тем временем, мы в компании Amai стараемся решить весь спектр этих задач. Большинство наших конкурентов предлагают роботы-голоса на частоте всего лишь 22 kHz, а мы сделали продукт, который работает на частоте 44 kHz. В результате получается кристально-чистый звук, без шума и искажений – и все это с естественными человеческими интонациями.

Для того, чтобы этого добиться, для начала мы берем файлы голосов профессиональных актеров и дикторов, записанные в самом высоком возможном качестве. Затем мы тренируем свои модели при помощи технологий искусственного интеллекта и понимания естественного языка. Получившиеся в результате роботы способны понимать пунктуацию – запятые, знаки вопроса, восклицательные знаки, – что позволяет им воспроизводить нюансы и интонации естественной человеческой речи. Мы также постоянно наращиваем скорость синтеза речи и совершенствуем качество нашего продукта.

Пример голоса

Давайте теперь обратимся к приведенному выше примеру аудиокниги. В старой парадигме процесс записи аудиокниги объемом примерно 350 страниц (около 1 миллиона знаков) занял бы у вас и вашей команды примерно 2 недели и обошелся бы в $1000-$5000. При помощи роботов Amai вы сможете ее записать всего за день (а это уже гигантская экономия времени), сидя за своим собственным компьютером, заплатив за весь проект всего лишь $99. Что еще нужно для счастья?

И если все это вам кажется неправдоподобным, то это только потому, что вы еще слышали наших роботов. Послушайте, посмотрите, попробуйте поиграть с настройками нашего демо – и сравните их с голосами наших конкурентов.