Основатель TWIN: «Задача любой крупной компании — сделать контакт с человеком менее затратным»

По оценкам Gartner, уже в следующем году более половины предприятий будут ежегодно тратить на голосовых и чат-ботов больше, чем на разработку мобильных приложений. Мы поговорили с предпринимателем из Екатеринбурга Игорем Калининым, основателем компании TWIN, о секретах ведения бизнеса за рубежом, о языковых особенностях в ОАЭ и почему разработчикам пришлось разбираться в «индусско-английском» диалекте, а также о планах экспансии на мировой рынок собственного языка программирования для ботов.

Начнем с самого злободневного: как отразилась пандемия на результатах за первое полугодие?

Пандемия практически не повлияла на развитие нашего бизнеса: пока успешно выполняем план, который заложили на текущий год. Цифры все скажут за нас: выручка по сравнению с предыдущим годом выросла более, чем в два раза. Так, 2019 год мы закрыли на уровне 108 млн рублей, в этом году планируем закрыть с выручкой в 250 млн рублей.

TWIN автоматизирует коммуникацию с 2016 года. Сейчас вы внедряете ботов во всех каналах коммуникации: звонки, SMS, мессенджеры, соцсети, онлайн-чат и электронная почта. Кто активнее всего использует ваших ботов в России?

Сегодня ботов активнее всего задействуют в части сопровождения клиентов банковский сектор, страховые компании, лидогенераторы, e-commerce и транспортные компании. В этих направлениях самые быстрые темпы развития, потому что контакт-центры, по сути, несут только издержки. То есть любое обращение в банк от клиента – по сопровождению текущего контракта или для сервисного обслуживания – не приносит доход, а отнимает его. Поэтому задача любой крупной компании — сделать контакт с человеком дешевле. А чтобы решить эту задачу необходимо автоматизировать разделение каналов коммуникации между ботами и сотрудниками.

Если сравнивать голосовых ботов с чат-ботами, какие занимают большую долю рынка в России?

Если делить рынок на голосовых и чат-ботов, то я бы сказал примерно 50 на 50. Сейчас нет ярко выраженного разделения. Если говорить конкретно о TWIN, то отличаются именно объемы выручки, которые напрямую связаны с разницей в стоимости самих услуг: так, 80% дохода мы получаем от голосовых технологий, 15% — чат-боты, 5% — любые виды нотификации (смс, уведомления, электронная почта, push-уведомления). До конца 2018 года мы развивались как все наши текущие конкуренты: фокусировались только на голосовых роботах, но к концу 2018 года мы поменяли фокус развития с голосового интерфейса на платформенное решение.

Особенности национальных рынков

Если смотреть на статистику, например, отчет Collect.chat, США возглавляет список топ-5 стран, где бизнес вовлекает потребителей через чат-бот интерфейсы на сайте: там показатель достиг 36%. Для сравнения, проникновение в Германии — 4%, в Соединенном Королевстве — 3%. Почему такие отличия?

Деление рынка на голосовых и чат-ботов во многом зависит от распространения технологий в каждой отдельной стране. В Америке, например, у нас выручка от голосовых ботов равна доходу от чат-ботов. Это связано с законодательством, которое регулирует спам-звонки. В каждом штате есть black-лист, куда можно внести свой номер телефона, и если абонент получит вызов от голосового бота с каким-то предложением, у провайдера будут серьезные проблемы. В течение недели может прийти повестка суд, и с компании потребуют штраф до $5 тысяч. В России такого пока нет.

Говоря о законодательстве: насколько отличается регулирование в отношении ботов в разных странах? Где проще вести бизнес?

Мы столкнулись со сложностями с законодательством в Америке, а именно с регламентом работы голосовых технологий. Пришлось 3 месяца плотно работать с юристами, изучать все технологии, чтобы минимизировать риски.

В России ситуация проще. Пока голосовых ботов регламентирует только 230-ый закон, который относится к работе коллекторских компаний. Туда была внесена поправка: если звонок совершается с помощью голосовых технологий, то робот обязан представиться. Вероятно, законодательство в этой сфере будет развиваться и дальше. Так, недавно Сколково и Сбербанк начали совместно разрабатывать положение по работе цифровых помощников для внесения в Госдуму.

Есть ли какие-то национальные особенности, которые влияют на развитие и внедрение голосовых интерфейсов?

Сложно работать в авторитарных государствах, где доминирует монополия. В любой стране, где контроль над одним каналом, есть ограничения для развития самой технологии. Когда нет конкуренции, нет и прорывов. Не нужно долго искать пример: Беларусь, где существует монополия на управление интернетом и телефонией. У нас там только один клиент — Беларусбанк. Аналогичная проблема в Казахстане. В этом смысле, лучше заходить во Вьетнам или в Африку.

TWIN ведет деятельность на Ближнем Востоке (ОАЭ), в Европе и США. Есть ли какие-то отличительные черты зарубежной модели?

Управление в других странах построено точно так же, как в России. Здесь, как и на внешних рынках есть агенты, которым мы платим за каждый лид или оборот лида, и есть партнеры, которые получают низкую стоимость на входе и зарабатывают на перепродаже услуг, в том числе под своим брендом: интегрируют технологию клиенту, словом, настраивают весь бизнес-процесс.

Иногда мы работаем под конкретных клиентов и платим за услугу разово или по итогу работы. Часто заключаем договор на несколько лет: например, с одним партнером контракт до 2022 года.

Расскажите о наиболее интересных зарубежных кейсах. Можно ли их реализовать в России?

В США, например, ботами пользуется индустрия клининга: после праздников (вроде Дня Благодарения) голосовой помощник звонит людям и предлагает услуги по уборке. Востребованы они и в риелторском бизнесе: боты уточняют у продавцов статус предложения, цену и возможность скидки. В Америке это хорошо работает, тогда как в России такие сервисы не пользуются спросом совсем.

«Трудности перевода»: какие сложности создают произношение и диалекты

С какими языками вы работаете при создании голосовых и чат-ботов?

Мы работаем с русским, английским и немецким языками, потому что на них есть спрос со стороны наших клиентов. Например, в России мы работаем с банком одного крупного автопроизводителя, который также привлек нас к проекту в Германии. Другой клиент — компания, которая разрабатывает сервисы и приложения для комфортной жизни в городе — заказал решение для Эмиратов: отправка нотификаций в WhatsApp, Facebook. Там мы работали с индусским и английским языками.

Какой был самый сложный кейс с точки зрения языка?

Это был как раз кейс в Эмиратах для одной международной компании в картографической сфере. Клиент ведёт коммуникацию с магазинами и работает с информационными карточками: владельцам нужно предоставить информацию, когда магазин закрывается, открывается, уходит на обед.

Проблема состояла в том, что в большинстве магазинов работают не арабы, а индусы. Соответственно, нам нельзя было применять арабский. Индусский не подошел, потому что каждый носитель этого языка пытается разговаривать на английском. В результате, голосовым помощникам было очень сложно распознавать английский текст: система не улавливала часть смысла из-за трудностей с распознаванием речи. В итоге, нам с коллегами из Google пришлось настраивать специфическую английскую речь, чтобы система смогла работать сказанное и передать данные клиенту.

Влияет ли выбор языка на процесс тренировки нейросети? Очевидно, что с английским работать проще – больше референсных данных для обучения.

Выбор языка никак не влияет. Есть трудности с дикцией, но они характерны для всех языков. Из-за не проговоренных окончаний может меняться смысл фраз. Нейронные сети стараются додумать ее по контексту, ведь важно не просто распознавать слова, а улавливать суть.

Еще одна проблема — выстраивание логического смысла сказанного. Можно сказать «Здравствуй, добрый вечер, рад тебя видеть», но качество речи/связи может исказить смысл. Нейросеть работает над тем, чтобы дообучить модель: «рад тебя видеть» — это именно «рад тебя видеть», а не просто «рад вид».

В кейсе с Philbot вы отмечаете, что была синтезирована американская речь, которая на 99,9% похожа на местную, при этом бот обзванивал все штаты. Как вам удалось создать цифровых ассистентов с разными диалектами? Есть ли в России какие-то региональные особенности восприятия?

В Америке особых проблем с диалектом нет, ведь мы работаем с английской речью. Зато они очевидны в Украине и Казахстане, где язык смешанный. Сложно распознавать речь, где сливается русский, казахский, украинский, так как мы можем распознать либо один язык, любой другой. Ни TWIN, ни Google, ни Яндекс не хочет тратить время на такие сложные кейсы, потому что пока они незначительны. Поэтому, например, в Казахстане мы работаем в Алмате и Нур-Султане. В глубинку не заходим: там чистый русский язык — большая редкость. С другой стороны, в России таких проблем нет ни в Татарстане, ни в Чечне. Если человек слышит русскую речь, он нормально говорит по-русски.

Боты для каждого: собственный язык программирования и наращивание вычислительных мощностей

Как следует из отчёта Grand View Research, Inc, глобальный рынок технологии распознавания речи будет расти в ближайшую пятилетку, достигнув емкости $30 млрд к 2025 году. Какие инновации будут двигать его вперёд? Расскажите о своих разработках по усовершенствованию технологии.

Сейчас мы работаем в двух направлениях. Одна команда занимается усовершенствованием синтеза речи для придания более человечного звучания: «мур», «эээ», и так далее. Также трудимся над распознаванием эмоций и их категоризацией в Data Sets (дата сеты) — своего рода модели. Помимо этого, в работе над синтезом речи продолжаем заниматься правильной расстановкой ударений в фамилиях.

Вторая команда занимается также разработкой собственного языка программирования для роботов, которого на нашем рынке пока не существует. Боты сейчас создаются на разных языках программирования, такие как, например, Python, а мы пытаемся писать на своем, специализированном языке, которым, надеемся, будет пользоваться весь рынок. Это аналогично тому, как когда-то условно появился PHP, его начали развивать, и впоследствии образовалось сообщество, которое с ним работает.

В чем особенность вашего языка программирования?

Мы с самого начала стремились создать язык программирования для каждого. Так, у нас уже сейчас часть разработчиков может делать ботов, не имея специального образования. Наша задача сделать так, чтобы уже в ближайшем будущем любой человек без глубоких технических знаний смог создать голосового или чат-бота. Мы хотим сделать его доступным для творческих людей, у которых нет навыков разработчика — они креативщики. Например, UX-дизайн создают в Figma — программе с нейронными сетями, и чтобы на ней работать, нужно просто освоить небольшую технологию. Мы делаем то же самое, только для рынка ботов – создаем функциональный, производительный и скоростной язык программирования, чтобы человек получал результат при минимальных усилиях.

В целом, как вы думаете, как будет развиваться рынок голосовых ботов? Будет ли он зависеть от особенностей языка/культуры?

Развитие ботов будет зависеть не от культурных и языковых особенностей, а от технического совершенства. Сегодня программирование на том уровне, когда разработчик может прописать боту только ограниченное количество действий. На следующем этапе, за счет большого количества вычислительных мощностей, будут сняты текущие барьеры в разработке.

Например, квантовый компьютер позволит решить проблему ограниченного множества за 3 секунды. С его помощью можно запрограммировать, например, более совершенного голосового помощника, неотличимого в общении от человека. Показательный пример — компания Firefox. Они стараются делать агентов общеступными, чтобы каждый мог создавать виртуальных сотрудников, ассистентов. В эту нишу хотят войти многие, включая Google и IBM, что ещё раз доказывает ее перспективность и потенциал.

#twin #чатбот #голосовойпомощник #автоматизация

0
2 комментария
Vadim K

Цены у вас, честно говоря, конские. Не знаю, в какой нише будет окупаться это. Элитная недвижимость?

Ответить
Развернуть ветку
Ivan Sidorov

Спасибо за статью. Наша команда тоже продвинулась в направлении #звукодзи   Мы применяем, правда, алгоритмы подсказанные психологами для связи эмоций и звуков (под руководством Лисецкого К.С.) - они немного отличаются от общепринятых.

Популярно в канале Телеграм http://t.me/YouTone

Ответить
Развернуть ветку
-1 комментариев
Раскрывать всегда