«Яндекс» первым научился воспроизводить голосовые эмоции

Технология синтеза речи «Яндекса» научилась воспроизводить эмоции. В зависимости от выбранного параметра робот может прочитать текст «добрым», «злым», нейтральным или «больным» голосом. Об этом ЦП сообщили представители компании. Для демонстрации технологии «Яндекс» выпустил приложение «Диктовка» для App Store и Google Play.

Синтез речи доступен пользователям облачного сервиса распознавания речи для корпоративных клиентов «Яндекса» SpeechKit Cloud.

Насколько нам известно, SpeechKit Cloud — первый в мире коммерческий сервис синтеза речи с поддержкой эмоций. В сфере телефонии мы уже предоставили возможность использовать SpeechKit Cloud российской компании OKTELL (разработчики программного обеспечения для автоматизации Call-центров), в сфере систем «умный дом» нашу технологию распознавания речи использует компания Cubic Robotics (разработчики персонального робота для дома) и ведем переговоры с несколькими компаниями из области системной интеграции, медицины и разработки корпоративный систем автоматизации.

По словам представителей «Яндекса», использование SpeachKit Cloud обойдётся в $5 за 1000 голосовых запросов. «Яндекс» ориентирует технологию на клиентов с сотнями тысяч запросов в сутки. При этом некоторым категориям клиентов компания готова отдавать технологию бесплатно: «Тем, кто не зарабатывает на своём сервисе, а делает мир немного лучше — занимается, например, образовательными или медицинскими проектами».

По мнению руководителя отдела голосовых технологий и продуктов «Яндекса» Дениса Филиппова, объем рынка голосовых технологий можно оценить в сотни миллионов долларов в год. Но именно из-за высокого порога входа конкуренция на нем пока не высока:

Мы используем статистический (параметрический) синтез речи на базе скрытых Марковских моделей. Тембр такого голоса несколько «компьютерный», зато у него естественные и плавные интонации. При этом гладкость речи не зависит от объёма и длины читаемого текста, а голос легко настраивать. Меняя числовые коэффициенты, можно имитировать разные эмоции.

Для демонстрации возможностей синтеза речи c помощью SpeechKit Cloud «Яндекс» выпустил приложение «Диктовка», доступное в App Store и Google Play. Оно умеет «включать» распознавание по голосовой команде. Для этого достаточно сказать приложению «Яндекс, записывай!»

Технология выделения смысловых объектов их текста также предоставляет возможность отредактировать текст с помощью голосовых команд. Например: «добавь веселый смайлик», «удали последнее слово», «замени слово осень на весна», «начни с новой строки», и приложение отредактирует текст.

#яндекс #яндекс_диктовка #технология_распознавания_речи