Какие технологии сегодня внедряются единицами, а к 2020 станут мейнстримом

Конспект лекции сооснователя и генерального директора компании Voximplant Алексея Айларова на третьей ежегодной конференции о коммуникациях для бизнеса Intercom’18.

Доклад Алексея Айларова, CEO Voximplant на конференции Intercom'18

Коммуникации являются неотъемлемой частью нашей жизни: мы общаемся друг с другом, с бизнесом, мы постоянно онлайн — многие технологии для нас привычны. Сегодня поговорим о вещах, которые еще не стали повседневными, но уже реальны и успешно используются крупными компаниями: мой доклад посвящен передовым технологиям, которые сейчас только зарождаются, и трендам следующих нескольких лет.

Термин «машинное обучение» известен всем и продолжает набирать популярность. Например, компания Google на конференции Google Cloud Next ’18 в Сан-Франциско все релизы посвятила ML: в том или ином виде оно присутствовало в каждом представленном сервисе. Отечественные компании тоже не отстают от намеченного тренда: в начале этого года на рынке появился Dialogflow Connector, который позволяет соединять текстовых помощников с телефонией. Продолжая разговор про машинное обучение, стоит отметить развитие сервисов по определению голосовой почты и классификации диалогов.

Детектор голосовой почты

VMD давно ждали на рынке: когда вы звоните автоматикой своим клиентам и попадаете на голосовую почту, автоответчик с удовольствием выслушивает сообщение, но кто потом проверит запись — в России не принято проверять голосовую почту. Натренированный на нескольких десятках тысяч реальных записей, детектор может обеспечить точность распознавания голосовой почты в 99% случаев, время определения при этом — в пределах двух секунд. Бизнес получил возможность ощутимо сокращать затраты на уведомления клиентов, платя лишь за реальные звонки.

Классификация диалогов

Если говорить про живые кейсы, в рамках платформы Voximplant мы сделали несколько классификаторов — для автобизнеса, недвижимости и медицины. Так, для автобизнеса у нас получилось выделить ряд категорий, по которым можно разбивать звонки: запись на тест-драйв, кредит, Trade-In, модель машины, первое обращение или повторное, устраивает или не устраивает сервис. Благодаря классификации диалогов бизнес может быстро находить нужные разговоры в собственной CRM, где отображается, кто и когда звонил, с каким вопросом, целевой ли это был звонок. Можно также прослушать запись или сделать транскрибацию. Раньше для этих целей использовали полнотекстовый поиск, но обученная модель понимает гораздо больше нюансов в диалоге.

Как это делается? Сначала нужно перевести голос в текст — либо через автоматическое транскрибирование, либо в ручном режиме. Затем происходит разметка: выделяется часть диалога и определяется его тема. Наконец эти данные загружаются в модель, которая обучается и начинает самостоятельно определять тему диалога.

Пример реализованного кейса с классификацией диалогов

Когнитивные помощники

Современное информационное поле пестрит кейсами про голосовых и текстовых помощников: Dialogflow от Google, Алиса от «Яндекса», Анна «Сбербанка», Lia от команды Angry Developers — не буду останавливаться на разборе этих проектов, доклады от коллег из перечисленных компаний будут в деловой программе конференции.

Кратко расскажу про механику: распознанный текст можно передавать в бэкэнд, где благодаря NLU происходит понимание смысла запроса, затем ответ возвращается опять же в текстовом виде и озвучивается за счет синтеза речи. Из пула современных технологий отмечу Dialogflow — выше озвученный процесс заметно ускоряется, так как у Google есть технологии для быстрой передачи данных, плюс технология умеет самостоятельно распознавать и синтезировать речь.

Иллюстрация взята с сайта https://voximplant.com/

В этом году мы посетили акселератор Google Launchpad в Сан-Франциско, там было много интересных спикеров, в том числе Винт Серф — один из основателей Интернета. После прекрасной лекции из зала поступил вопрос: «Винт, NASA работает над межпланетным интернетом, а видеоконференции до сих пор как-то не очень работают здесь, на Земле».

— Интернет находится в самом начале своего развития, поэтому я уверен, что эту проблему мы решим, — ответил Винт Серф.

Так почему с видеоконференциями все сложно?

Пропускная способность

Когда в конференции участвует много людей, на серверах нужна определенная пропускная способность. Когда качество передачи видео растет, включая разрешение, пропускной способности требуется больше. Вы не поверите, но даже сейчас инфраструктура не успевает за внедрением «маркетинговых идей» вроде 4К видео: полоса, необходимая для таких видеоконференций, нужна просто огромная — не все операторы готовы к такой «революции» с точки здения оборудования.

Разное качество интернета у участников

Кто-то из участников общается по Wi-Fi, у кого-то 3G, у кого-то broadband — технологии на сервере клиента должны оперативно разбираться с ситуацией, к сожалению, и этот момент пока остается проблемой. Ее несколько нивелируют новые технологии, позволяющие отправлять одновременно поток в разных качествах, одному участнику видео отправляется в хорошем качестве, другому — в плохом, но и этот «выход» — не панацея.

Лицензии на видеокодеки

По сети видео проходит в сжатом виде, для корректного воспроизведения необходим видеокодек — последние до определенного момента требовали отчисления в пользу правообладателей. С передачей аудиофайлов раньше была аналогичная ситуация, но потом появились открытые кодеки, в том числе OPUS — бесплатный и закрывающий максимальное количество кейсов от телефонии до проигрывания музыки.

Что же происходит с видео? Крупные компании типа Google, Microsoft, Apple, IBM и еще 8-10 гигантов собрались и организовали альянс, который в значительной степени является обладателем патентного пула на любые технологии, связанные с методом сжатия. Они решили, что пора с видео сделать то же самое, что и с аудио, то есть создать бесплатный открытый кодек, который будет качественно удовлетворять наши потребности, плюс мы все вместе будем его развивать. Это случилось в 2015 году, но, так как видеокодеки — это некий rocket science и очень наукоемкая технология, которую сложно сделать и еще сложнее внедрить на рынок, их имплементация в софте, железе и в реальных приложениях появится в широком распространении только через пару лет.

То есть, к 2020 году ожидается всплеск развития видеотехнологий, видеоконференций и стриминга. Этому также способствует активное развитие мобильного интернета: американские и европейские операторы уже начали внедрять 5G, дающий пропускную способность до 10 Гигабит и задержку около нуля. Здесь можно вставить шутку про шапку из фольги: в ближайшем будущем мы будем окружены волнами передачи информации еще больше, и нам никуда от этого не деться, будем пользоваться.

Иллюстрация взята с сайта https://aomedia.org

В завершение своего доклада расскажу о том, что появилось новго на отечественном телеком-рынке. Помимо AI и ML на базе платформы Voximplant мы успели запустить SMS и BOT API, а также редактор исходящих звонков Smartcalls.

SMS API — многоканальное обслуживание все еще требует отправки сообщений «классическим» способом, хотя в месседжинг мы верим больше.
BOT API для месседжинга — возможность совместить общение с ботом сразу в нескольких каналах, голосовом и текстовом. Если вы начали говорить с ботом по телефону, а потом вам стало неудобно продолжать разговор, можно перейти в мессенджер и продолжить общение.
Редактор исходящих звонков Smartcalls — возможность для людей без технического бэкграунда строить в визуальном редакторе сценарий звонка, загружать список контактов и видеть результаты автоматического обзвона в своей CRM-системе.

Но это не все новости на сегодня: благодаря тому, что мы сделали Dialogflow Connector, обходящий все похожие решения на мировом рынке, мы стали официальным технологическим партнером Google Cloud – это позволит нам получать доступ к передовым технологиям в области машинного обучения и искусственного интеллекта и передавать их вам для наиболее простого и эффективного использования.

Планы на 2019 год

Запустить Contact Center Kit: у нас накопилось огромное количество технологий, которые позволяют создавать достаточно серьезные колл-центры с омниканальным обслуживанием, распознаванием речи, machine learning и другими инновациями.
Запустить стриминг.
Запустить новые serverless-возможности, чтобы разработка на платформе не требовала сторонней инфраструктуры.
Запустить новые визуальные редакторы для платформы, чтобы непрограммисты могли создавать коммуникационные сервисы самостоятельно.