Анализ рынка речевых технологий и распознавания речи в России

Работая несколько лет с речевыми технологиями, мы (Amvera Speech) регулярно проводили маркетинговые и продуктовые исследования и накопили знания о рынке распознавания речи. Хотим поделиться основными моментами. Отметим, что для оценки качества распознавания мы даже провели собственное тестирование разных решений.

В статье мы коснемся рынка

- систем распознавания речи (ASR, STT)

- систем анализа речи, речевой аналитики

Рынок речевых технологий представлен и другими направлениями, такими как биометрия, голосовые роботы, генерация речи. Но в данной статье мы не будем их касаться.

Рассмотрим следующие аспекты:

- структура рынка по продуктам

- объем рынка РФ по направлениям, доли ключевых игроков

- характеристики решений

- ценовая политика вендоров

Цифры, показанные в этом источнике, являются результатом как анализа внешних источников (выручка компаний, цены на сайте), так и инсайты в ходе общения с коллегами и клиентами.

Вендоры систем распознавания речи

На рынке представлены:

Коммерческие вендоры - Amvera Speech, ЦРТ, Yandex Speech Kit, Tinkoff Voice Kit, Sber Salut, распознавание от VK, Silero, ASM, 3i tech, Наносемантика, распознавание от Google (и других западных компаний).
Внутрикорпоративные решения - МТС, Naumen, Криптонит, Just AI. Отличие внутрикорпоративных решений от коммерческих в том, что внутрикорпоративные не продают отдельно свои системы распознавания речи. Они используют их в своих продуктах и продают продукты, например, голосовые боты или колонки.
Open source проекты, например, VOSK

По типам продуктов игроки группируются следующим образом:

Облачные провайдеры - Yandex Speech Kit, Tinkoff Voice Kit, Sber Salut, распознавание от VK, Google.
Решения, устанавливаемые преимущественно в контур, - Amvera Speech, ЦРТ, ASM, 3i tech. Тем не менее, как правило, у всех перечисленных вендоров есть облачная версия.

Вендоры речевой аналитики

По нашим оценкам, на рынке присутствуют более 30 компаний. Упомянем основных из них.

А. Независимые игроки

Решения для контактных центров:

IMOTIO, Speech Analitics, ЦРТ

Решения для анализа речи с бейджей диктофонов:

VOСA, Verbex

Б. Речевая аналитика в составе других продуктов (телефония, CRM)

Манго Офис, UIS/CoMagic, CallTouch, Roistat

Выручка вендоров, как правило, состоит из выручки от продажи нескольких продуктов/услуг. Поэтому дадим примерную оценку в разрезе групп продуктов.

Отдельно выделим компанию ЦРТ, которая, по нашим оценкам, занимает около 70% всего рынка речевых технологий с выручкой в 2,7 млрд. руб. Особенность компании - работа исключительно с гос. заказчиками и крупными корпоративными клиентами.
Выручка вендоров технологий распознавания речи, поставляемой в контур, а именно компаний Amvera Speech, 3i, ASM Solution составляет в сумме порядка 450 млн. руб.
Рынок облачного распознавания составляет 150-200 млн. руб.
Рынок речевой аналитики для контактных центров (IMOTIO, SpeechAnalitics и т.д.) составляет 50-100 млн. руб.
Рынок речевой аналитики с бейджей диктофонов (Voca, Verbex) составляет до 100 млн. руб.
Рынок речевой аналитики в составе продуктов телефонии и CRM составляет около 50 млн. руб.

Выручка вендоров распознавания по сегментам

Качество распознавания является важнейшим критерием выбора поставщика распознавания речи. Мы провели свое независимое тестирование качества ASR решений, предназначенных для распознавания русской спонтанной речи.

Методология измерения:

Для оценки качества распознавания были использованы три собственных эталонных набора данных.

Первый набор данных содержал 3 часа размеченных аудиофайлов, записанных в телефонном канале и содержащих преимущественно общую лексику.

Второй набор данных содержал 4 часа размеченных аудиофайлов с высоким уровнем шумов (переговоры по рации и записи с микрофонов в шумном помещении, а конкретно с АЗС).

Тестирование проводилось как с использованием открытых API облачных сервисов, так и с привлечением ресурсов двух дружественных компаний, у которых были установлены решения в контуре и которые согласились прогнать на них наши данные.

Метрика измерения - WER (Word Error Rate), частота ошибок в словах.

Таблица сравнения систем распознавания речи

Анализ рынка речевых технологий и распознавания речи в России

Для сведения общего рейтинга по WER мы решили назначить 5 баллов лучшему решению в каждом из доменов и 1 балл худшему.

Результаты получились следующие:

1. Яндекс – 8 баллов

2. Amvera – 8 баллов

3. ЦРТ – 6 баллов

4. Тинькофф – 5 баллов

5. Google – 2 балла

Интересно отметить, что худшие показатели - у распознавания от Google. Причем как на телефонной речи, так и на зашумленных данных.

Хорошим качеством на телефонной речи может похвастаться Тинькофф, но он “проседает” на зашумленной речи. Это весьма логично, так как в банке, в основном, используется телефонный канал.

Рассмотрим другие опции различных продуктов:

Итого: если вы хотите распознавать речь в облаке и у вас обычные телефонные записи, неплохие результаты дадут Тинькофф или Яндекс.

Если задача - распознавать зашумленную речь, то стоит выбрать Яндекс или Amvera Speech.

Если вам нужно адаптировать решение под ваш кейс (например, обучить систему распознавания отраслевому словарю или распознавать специфические аудиофайлы), то попробуйте либо Amvera Speech, либо ЦРТ.

А на распознавание речи от Google вы можете даже не тратить время.

Основной параметр ценообразования и тарификации - это тип продукта: облачное решение или решение в контуре.

Облако не подразумевает первоначальных затрат для покупателя. Вы платите деньги с того момента, как началось распознавание ваших файлов. Однако минута обходится в 30-60 копеек.

При этом стоимость распознавания в контуре составит буквально 3-4 копейки за минуту, если вы арендуете сервера. Но есть первоначальные вложения, а именно - лицензирование ядер или инсталляция решения. В среднем, стоимость лицензирования одного ядра составит от 25 до 100 т.р. в зависимости от вендора и количества лицензий. Принята практика либо лицензировать от 10-20 ядер, либо включать установочный платеж за первое ядро/инсталяцию в 500-700 т.р.. При этом бывают и безлимитные тарифы (у Amvera Speech), то есть распознавать можно неограниченное количество минут за фиксированный платеж. Таким образом, приобретать лицензии в контур имеет смысл при необходимости распознавать более 30 000 - 50 000 минут в месяц.

Примерное ценообразование вендоров распознавания речи:

Amvera Speech

Бесплатно - до 3 000 минут в месяц.

2 т.р. – поток в месяц на выделенном сервере (в облаке).

1,9 млн. руб./год – безлимитное количество потоков.

ЦРТ

700 т.р. – первый поток

60 т.р. – каждый следующий поток

ASM

900 т.р. первые 5 потоков

40 т.р. – каждый следующий поток

1 млн. руб. – первый поток (серверное ПО)

35 т.р. – каждый поток на 5 лет.

Наносемантика

30 т.р. в год за поток (от 10 потоков)

60 т.р. за поток (от 10 потоков)

Яндекс

От 30 т.р. поток в год от 330 т.р. в месяц

Ценовая политика вендоров речевой аналитики

Можно выделить несколько моделей ценообразования:

- лицензия для установки In-house (ЦРТ, 3i). Как правило, стоимость начинается от нескольких миллионов рублей.

- облачная лицензия с тарификацией по минутам (как поминутно, так и пакетами), сотрудникам, устройствам сбора аудиоданных (бейджей-диктофонов). В среднем стоимость минуты обработки аудио колеблется от 0.5 до 2 рублей.

Рынок речевых технологий России представлен более 10 разработчиками систем распознавания речи и более 30 систем анализа речи. Основной объем рынка сосредоточен в секторе B2G и в секторе крупных корпоративных клиентов. Качество распознавания речи отечественных решений превосходит качество зарубежных при распознавании русского языка. У потребителей, в зависимости от требуемого объема, есть возможность использовать как облачные версии ASR, так и On-Premise решения.

P.S. Если у вас есть потребность в бесплатном распознавании речи, вы можете получить токен на 3000 минут в месяц. Для этого оформите запрос у нас на сайте https://amvera.ru/speech

Анализ рынка речевых технологий и распознавания речи в России

Структура рынка распознавания речи и речевых технологий

Объем рынка распознавания речи и речевых технологий

Качество распознавания речи

Ценовая политика вендоров ASR

Выводы: