Своими словами: речевые технологии для бизнеса и жизни

В каких сферах голосовые интерфейсы уже стали привычной практикой и как развивается это направление для обработки русскоязычной речи, рассказывает Илья Калагин, руководитель Центра когнитивных технологий «АйТеко».

Чтобы заказать такси, пиццу или доставку цветов, узнать погоду или купить билеты в кино, уже не нужен графический интерфейс — можно просто сказать, особенно если мы общаемся с гаджетом в англоязычной стране. Голосовые технологии сегодня предлагают новый уровень скорости и удобства взаимодействия человека и различных цифровых устройств.

Произошедшие за последние несколько лет качественные изменения в области обработки речи оказались значительнее, чем за предыдущие двадцать. С одной стороны, пользователи уже воспринимают возможность голосового общения с девайсами и интерфейсами как нечто доступное и простое, с другой — бизнесу трудно адаптироваться к столь стремительному приходу технологии.

Что такое речевые технологии?

Под речевыми подразумевают несколько технологий, использующих искусственный интеллект и алгоритмы машинного обучения. Первая — это распознавание речи: человек говорит, и машина должна преобразовать звуки речи в текст, привести в цифровой вид. Вторая группа задач — синтез речи: машина озвучивает текст, и качество симулированной речи должно быть максимально близко к человеческой. Третий класс — это биометрия по голосовым характеристикам.

Традиционные системы распознавания речи построены на скрытых марковских моделях. Их математический аппарат начал применяться для решения задач обработки речи в 1970-х гг. Качество и скорость распознавания удалось повысить за счет введения элемента прогнозирования, и такой подход повлиял на дальнейшее развитие технологии.

Взрывной рост числа проектов с использованием речевых технологий объясняется как революцией глубокого обучения, так и появлением больших вычислительных мощностей и качественных речевых корпусов. Совместное использование многослойных нейронных сетей и скрытых марковских моделей дало увеличение точности распознавания речи в десятки процентов.

Родная речь

Сегодня речевые технологии, то есть анализ и синтез русской речи, демонстрируют высокий уровень развития, достаточный для решения многих классов задач. Но их практическое применение ограничивается слабым уровнем развития NLU (Natural language understanding, понимание естественного языка).

При построении чат-ботов есть два основных подхода. Первый — chit-chat — подразумевает разговор ни о чем и используется в развлекательных целях. Так, мы можем поболтать для удовольствия с Алисой. При использовании в бизнес-контексте такой свободный диалог невозможен. Известны кейсы, в которых бот от имени крупного банка некорректно общался или оскорблял отдельные группы пользователей: актуальный пример.

Поэтому в подобных ситуациях чаще применяются интеллектуальные правила с машинным обучением. При помощи существующих решений компания может создать чат-бота под конкретную задачу — прием заказов в интернет-магазине или онлайн-покупку билетов — и диалог будет реализован четко в рамках ее решения.

Голосовые ассистенты и интерфейсы

Siri, Alexa, Google Assistant, Алиса и другие голосовые помощники уверенно прописались в смартфонах, умных колонках и гаджетах и умеют многое. С их помощью можно искать информацию, узнавать прогноз погоды и обстановку на дорогах, ставить будильники и таймеры, получать напоминания о событиях; в ряде стран — заказывать товары и услуги, бронировать места в ресторанах и поездах.

Технологические лидеры понимают, что голос в будущем превратится в один из ключевых каналов коммуникации с потребителями, и уже сейчас ведут ожесточенную борьбу за первенство в сегменте. Одно из направлений конкуренции — создание помощника, который по поведению и характеристикам будет наиболее близок к человеку.

За написание диалогов для Cortana отвечают писатели и сценаристы, скрипты для Google Assistant создают авторы Pixar и сатирических изданий: последних наняли, чтобы помощник демонстрировал чувство юмора. К сильным сторонам Siri пользователи относят умение шутить и вносить в общение ноты иронии и сарказма. Казалось бы, такие свойства не влияют на эффективность решения пользовательских задач, но важны для качества клиентского опыта.

Мнения экспертов едины в том, что голосовые интерфейсы будут интегрированы практически во все устройства: от автомобиля до микроволновки. Ведущие производители техники заявляют, что в перспективе нас будут окружать умные пространства, объединяющие дом или квартиру, личные автомобили, загородную недвижимость. Одним из ключевых способов общения с такой средой станет голос.

Речевые команды и запросы будут массово применяться для решения повседневных и деловых задач. Если сейчас клиенты могут общаться с вами в чатах, делать текстовые запросы, то стоит задуматься об интеграции речевых технологий в ваши коммуникации. В исследовании компании Just AI предсказывается, что к 2021 году наличие чат-бота, понимающего и синтезирующего речь, станет нормой для большинства интернет-сервисов в России.

Автоматизация колл-центров и служб поддержки

Активно речевые технологии осваивают колл-центры и службы поддержки. В этой сфере большая часть операции, а соответственно и потенциал для автоматизации, приходится на голосовое общение операторов и клиентов. Согласно данным компании Яндекс, использование речевых технологий в 16 раз ниже стоимости работы оператора.

В комплексных решениях автоматизации речевые технологии используются в связке с NLP, обработкой естественного языка. Одна из распространенных задач для оператора — соединить звонящего с нужным специалистом. Речевой модуль переводит устную речь в текст, с помощью технологий NLP сообщение классифицируется по настраиваемым параметрам: это может быть тип проблемы, упоминаемые в разговоре города, юридические и физические лица и так далее. По итогам классификации система автоматически отправляет запрос ответственному за решение подобных вопросов специалисту.

Другой сценарий: после определения класса система обращается к базе знаний и в процессе разговора может предложить оператору релевантную информацию или варианты решения проблемы клиента. То есть технология выступает в качестве рекомендательной экспертной поддержки.

Технологии предлагают перспективные возможности для анализа и классификации записей разговоров. С помощью искусственного интеллекта можно определить тему общения, ключевые слова, тональность — негативную, нейтральную или позитивную. Такой способ обработки аудиоинформации применяется в колл-центрах для контроля качества работы услуг, в бизнесе — для анализа коммуникаций с клиентами, в других случаях — для оперативного анализа аудиоинформации.

Фокус на главном

В среднем человек печатает до 40 слов в минуту, а произносит — до 150. Это гарантирует востребованность технологии в тех контекстах, где важна скорость взаимодействия человека и машины. Также существуют ситуации, когда ручной ввод текста невозможен или затруднен: за рулем, в сложных производственных или экстремальных условиях.

Так, использование технологии в промышленности позволяет с помощью речевых команд запускать и выключать оборудование, управлять техникой и механизмами на стройке, вносить изменения в предустановленные сценарии. Внедрение таких решений повышает скорость взаимодействия сотрудников с оборудованием и позволяет им сосредотачиваться на производственном процессе.

Ручной набор требует внимания и усилий человека в ситуациях, когда все ресурсы необходимо сосредоточить на решении критически важных задач. Это касается работы диспетчеров больших производственных или энергетических систем, пилотов самолетов и операторов сложной техники. Использование речевых команд и голосовых интерфейсов разгружает зрительный канал и позволяет специалистам фокусироваться на важных параметрах деятельности.

Вышесказанное справедливо и для рядовых водителей автомобилей. В исследованиях причин аварийности на дорогах упоминаются смартфоны: водители часто отвлекаются не на разговоры, а на набор текста или происходящее на экране. Ответственным участникам движения голосовой ассистент позволит использовать время поездки с пользой: можно надиктовать список поручений или, зная меню ресторана, заказать к своему возвращению ужин с доставкой.

В сфере видеоаналитики мы отмечаем отставание российского рынка от мирового на два—три года. В случае с речевыми технологиями разрыв составляет пять—семь лет, — если говорить не о научном развитии технологии, а практическом использовании в бизнесе. При этом в ближайшем будущем можно ждать интеграцию технологии во множество привычных нам сценариев и паттернов — от приготовления чашки кофе до управления сложными промышленными комплексами. Поэтому тот бизнес, что начнет раньше в прямом смысле разговаривать с клиентами, получит преимущество для успешного продолжения диалога в будущем.

33
1 комментарий

Думаю что для модернизации своего бизнеса, стоит внедрять CRM-системы. Я воспользовался продуктом польских друзей из Firmao. Заметил, что в последнее время на нашеи рынке появляеться много зарубежных фирм. Оставляю тут ссылку на демо-версию, советую попробовать даже тем кто уже пользуеьбся ЦРМом: firmao.ru/info

Ответить