{"id":14270,"url":"\/distributions\/14270\/click?bit=1&hash=a51bb85a950ab21cdf691932d23b81e76bd428323f3fda8d1e62b0843a9e5699","title":"\u041b\u044b\u0436\u0438, \u043c\u0443\u0437\u044b\u043a\u0430 \u0438 \u0410\u043b\u044c\u0444\u0430-\u0411\u0430\u043d\u043a \u2014 \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0433\u043e\u0440\u0435","buttonText":"\u041d\u0430 \u043a\u0430\u043a\u043e\u0439?","imageUuid":"f84aced9-2f9d-5a50-9157-8e37d6ce1060"}

«Здравствуйте, меня зовут Агата»

Как мы придумали и сделали виртуального секретаря для офиса

Мир уже несколько лет живёт с голосовыми помощниками в смартфонах и умных колонках. Роботы общаются с нами по телефону, чат-боты взаимодействуют в мессенджерах и мобильных приложениях. Для технологических компаний, таких как Google, Apple и Яндекс, интереснее всего максимальный охват и аудитория. Поэтому основная борьба между ними разворачивается на B2C рынке.

А вот в обычной, административной «офисной» жизни, на рынке B2B проникновение голосовых помощников носит совсем не масштабный характер. Немногочисленные компании внедряют чат-ботов для помощи сотрудникам на корпоративных порталах или в корпоративных соцсетях. Однако системных решений практически нет. Точнее не было, пока российская компания Loftice не придумала «Агату» — виртуального ассистента для офиса. Директор по развитию бизнеса Loftice Николай Шалаев рассказал, почему решили этим заняться и с какими сложностями столкнулись в процессе.

Кто мы? И почему решили делать виртуального ассистента для офиса?

Основная сфера деятельности Loftice — это аутсорсинг непрофильных для клиентов бизнес-процессов. Иными словами, мы оказываем клиентам услуги по поддержке их офисов: ресепшн, работе с почтой, управлению их автопарком и так далее. Все то, где у бизнеса не накапливается экспертиза, постоянно требуются ресурсы, а задачи носят рутинный характер. Мы работаем в России и Казахстане, с подавляющим большинством клиентов сотрудничаем годами – это крупнейшие международные и российские компании.

Одна из наших основных услуг — аутсорсинг ресепшн. Это когда в приемной клиента работают наши сотрудники, под нашим управлением и контролем, а клиент получает непрерывный качественный сервис. Непрерывный сервис означает, что на период отпуска и болезни сотрудника мы выводим на работу временного, которого предварительно обучаем работе у конкретного клиента. Это также означает, что у нас довольно много сотрудников. На постоянной основе в компании работает больше 600 человек, а количество временных исчисляется тысячами.

В общем, у нас десятилетний успешный опыт в том, как предоставить клиенту административный сервис живыми, физическими сотрудниками.

Как все начиналось

Два года назад у нас возникла идея трансформировать зоны ресепшн наших клиентов за счет современных технологий. Представьте, вы приходите в компанию, а в зоне ресепшн вас встречает голограмма, проекция или экран с виртуальным секретарем, который консультирует вас по всем вопросам о компании, бронирует переговорную, вовлечен во все бизнес-процессы компании и может дать ответ на любой вопрос. Не факт, что вы будете сразу задушевно беседовать с электронным помощником, но и ждать, когда подойдет живой секретарь, вам не придется — робот сразу сам начнет диалог. Совсем как в крутом голливудском фантастическом фильме, но только в офисе.

Что в этой истории особенно ценно — секретарь не уволится через пару месяцев, а все знания останутся в компании. Текучесть персонала, одна из самых дорогих HR-проблем бизнеса. Особенно в зоне ресепшн, ведь средний срок работы специалиста на такой должности чуть больше одного года.

Вот с такими выкладками (помимо чисто финансовых расчетов), большим энтузиазмом и, как оказалось, изрядной долей легкомыслия мы обратились к нашим клиентам с вопросом — было бы им интересно поставить у себя на ресепшн виртуального секретаря, если мы такого разработаем.

Отклик получили настолько хороший, что пара клиентов подтвердили готовность к сотрудничеству сразу, как только появится хотя бы прототип. Энтузиазм и тяга к решениям из фантастических фильмов оказались заразительными, ну и большой кредит доверия помог. Спасибо этим компаниям огромное, что они в этот проект поверили.

Оставалось только выполнить обещания и сделать виртуального ассистента с качественно проработанным функционалом и визуализацией, который слушает и беседует с посетителем. Вот что в итоге получилось:

Пример работы «Агаты» в зоне ресепшн

«Агата» сегодня — это физически установленная в офисе стойка с экраном, микрофоном и динамиками. На нее выводится персонаж, который сам начинает диалог, может ответить на вопросы посетителя, сообщить по телефону и смс сотруднику о посетителе, помочь с навигацией, подсказать расписание корпоративного шаттла, обеспечить видео-звонок с удаленно находящимся живым секретарем в случае каких-либо проблем. А еще с «Агатой» можно просто поболтать. Наш виртуальный ассистент уже работает в двух компаниях в Москве: крупной международной FMCG-компании и химико-фармацевтической транснациональной корпорации.

Визуализация и графика для «Агаты»

Изначально мы вообще не планировали делать экраны, мониторы и панели, а хотели создать робота-девушку, которая бы появлялась в виде голограммы, как в «Звёздных войнах».

Сначала тестировали технологию голографических вентиляторов, почти запустили ее. Но столкнулись со сложностями. Вентиляторы за счет механического вращения лопастей создают на картинке рябь. Нам нужно было передавать потоковое видео на устройство, а вентиляторы для этого плохо приспособлены, плюс они шумят при работе. Псевдо 3D изображение на вентиляторе имеет довольно ограниченный угол обзора.

Какие-то другие технологии — такие как прозрачные телевизоры, реальная голография или сложные проекционные устройства с мелкодисперсными частицами воды — оказались или слишком дорогими или ненадежными и технически сложно реализуемыми. Возможно, мы чего-то упустили, но пока, кажется, нет надежного, простого и недорогого варианта, как сделать мобильную голограмму с потоковой передачей видео.

В итоге остановились на самом простом варианте – телевизионной панели 70 дюймов. По сути, такие же экраны, только чаще всего меньшего размера используются в информационных и рекламных стойках.

Саму модель выбирали довольно просто — для прототипа у нас был ограниченный список требований. Модель должна была подходить для технологии захвата изображений (motion capture) — это когда анимация создаётся не вручную, а путём оцифровки движений человека в специальной студии с последующим переносом движений на трёхмерную модель). У модели должен был быть набор подходящей «для офиса» одежды и «усредненная» внешность, чтобы как можно меньше вызывать вопросов.

Вообще, с этой усредненной внешностью оказалось непросто. Оказалось, что 3D анимация довольно сильно развивается за счет adult индустрии. К счастью, на маркете Unity нашлась вполне подходящая модель, но и ее пришлось немного модифицировать: бюст уменьшить, а одежду перекрасить. К слову сказать, модель оказалась настолько усредненной, что первое нескромное предложение от посетителя об интимной связи «Агата» получила только через 8 месяцев после начала ее работы. Мы почему-то думали, что это случится гораздо раньше.

По сути, сейчас нет проблемы взять любую другую модель и в достаточной мере ее анимировать, наша цель — сделать набор из универсальных моделей разного пола, возраста и внешности, а также разрабатывать модели под любого корпоративного мульти-персонажа. Здорово же, чтобы в офисе компании, у которой есть классный анимированный маскот, именно он встречал и общался с посетителями!

У «Агаты» есть вполне человеческие жесты, она двигается, у нее есть мимика. Например, она поправляет прическу, переминается с ноги на ногу. Мы хотели, чтобы даже в режиме ожидания «Агата» не была статична. Она самостоятельно переходит из позы в позу, а эмоционально окрашенные жесты для какой-то особенной фразы (погрозить кулаком, послать воздушный поцелуй и т.п.) клиент может самостоятельно задать в личном кабинете.

Фон мы сознательно не дорабатывали (кроме традиционной елочки на новый год). Во-первых, чтобы не контрастировать с цветом самой стойки, а во-вторых, потому, что фон должен быть информационно насыщен. Опыт показывает, что человеку сложно сразу сориентироваться, как и о чем разговаривать с «Агатой», поэтому на экран выводится облако тегов — подсказки по темам разговоров и области компетенций «Агаты». При этом уже сейчас можно сформировать любое 3D-окружение к нашей виртуальной помощнице — это дает широчайшие возможности для маркетологов и HR директоров компаний, где будет установлен робот-ассистент. Хоть в акваланге будет с рыбками плавать, хоть в рубке космического корабля пролетать сквозь галактики — возможности ограничены лишь фантазией.

Синтез и анализ речи

На сегодняшний день «Агата» работает в рамках дерева диалогов. В личный кабинет нашего виртуального ассистента оно перекочевало из компьютерных игр — ровно по такому же принципу строятся диалоги игровых персонажей. При этом у каждого клиента есть возможность самостоятельно редактировать диалоги, а также загружать справочную информацию и FAQ. Вот, например, отличное решение от Microsoft, которое мы используем для вычленения сущностей из корпоративных документов формата Q&A — https://www.qnamaker.ai/.

Для speech-to-text мы используем технологии Яндекс и Google. Оказалось, что Яндекс лучше распознает русскую речь (особенно русские фамилии), но вот с английским языком справляется лучше Google.

Вычленение сущностей строится на базе Google DialogFlow, а также собственного редактора. Это сделано для упрощения и большей надежности в тех диалоговых ветвях, где соотнесение должно производиться не по всей базе, а только по ее части.

Синтез речи берем у Goggle — для наших задач вполне хватает одного из стандартных вариантов их голосов, тем более что есть возможность дополнительной настройки тембра и скорости речи.

Все диалоги «Агаты» делятся на функциональные (я пришел на встречу, передать документы, нужен пропуск) и общие (о погоде, транспорте, последних новостях). Блок функциональных запросов включает все специфические для клиента, важные и конкретные диалоги-запросы: «Я курьер, принес пиццу», «У меня собеседование с А» или «Мне нужно передать письмо Б». Такие диалоги пока что строятся вручную. У каждого клиента есть личный кабинет, где он может самостоятельно настроить эти диалоги под себя и прописать сценарии ответов. Также мы самостоятельно анализируем все сессии общения Агаты с посетителями и производим корректировки, если это нужно.

Вообще, неискушенному взгляду современные речевые технологии видятся как одновременно что-то очень простое (ведь что может быть проще для нас, людей, чем говорить и понимать смысл сказанного) и очень несовершенное, ведь голосовые помощники довольно часто ошибаются или отвечают невпопад.

В случае с корпоративным голосовым виртуальным ассистентом в зоне ресепшн задачи распознавания речи чуть более конкретны, чем в случае голосового помощника для B2C. От «Агаты» не требуется уметь переключать треки или включать таймер. В теории спектр ее задач чуть шире тех, что мы ожидаем от живого секретаря, поэтому мы пока не планируем на 100% внедрять существующие NLP модели, и тем более самостоятельно тренировать нейронную сеть для наших узких задач

В B2B цена ошибки может быть очень высока — неправильный ответ по телефону или посетителю в зоне ожидания может привести к серьезным последствиям. Таким образом мы исключаем риски, что виртуальный помощник ответит что-то неполиткорректное или нецензурное, как это уже было с разными голосовыми ассистентами. При этом для неспецифических диалогов на общие темы, в которых нет клиентской специфики, совершенно точно, будем внедрять существующие речевые модели для каких-то конкретных областей и задач. Например, у Deep Pavlov есть модели для ответа на вопросы по Википедии или эмоциональной окраски речи.

Уверены, что со временем технологии будут развиваться и адаптироваться для B2B. Пока у нас есть задача ответить на базовые запросы, а там, где это невозможно — перевести диалог на живого человека. По сути, стать первой линией для любого входящего запроса. При этом для случаев, когда «Агата» не справляется и требуется подключение живого человека, она самостоятельно делает видео-вызов секретарю ресепшн, находящемуся удаленно, и тот помогает с решением вопроса.

Техника

«Агата» самостоятельно начинает диалог, как только в поле зрения ее камеры попадает человеческое лицо. Это важно потому, что сам посетитель к стойке «Агаты» не подойдет, его нужно «подтолкнуть» к общению. При этом ему не нужно произносить никакое «кодовое слово» для начала диалога. Технологии face detection достаточно надежные и с высокой достоверностью умеют определить человеческое лицо в кадре. Оплата по биометрии лица — более чем показательный пример в этом плане.

Но внедрение face detection в «Агате» не обошлось без казусов. В одном из офисов «Агата» расположена прямо напротив стеклянной стены входа в офис и с наступлением сумерек и включением искусственного освещения, экран «Агаты» начинает ярко светиться и отражаться в стеклянной стене. Все бы хорошо, если бы камера виртуального секретаря не начала видеть отражение лица «Агаты» напротив. Как результат, в начале тестирования «Агата» целую ночь обнаруживала лицо в кадре (свое собственное) и приветствовала сама себя. Пришлось учить камеру «Агаты» игнорировать свое собственное лицо в кадре.

Еще одна из нетривиальных задач, которую пришлось решать, — это работа микрофона. Наверное, все замечали, что, когда вы общаетесь с голосовым ассистентом в колонке или телефоне, этот ассистент будет реагировать не только на ваш голос, но и на голос из соседней комнаты? Микрофону совершенно все равно, где находится собеседник. В случае с виртуальным секретарем ресепшн это большая проблема.

Зона приемной компании — довольно шумное место. Тут все время кто-то ходит, открываются и закрываются двери, встречаются и разговаривают люди и так далее. Наша задача была обеспечить возможность диалога с «Агатой» таким образом, чтобы в этот диалог не вклинивались голоса посетителей, разговаривающих сбоку или в отдалении от стойки виртуального секретаря, чтобы эти фоновые шумы не мешали. Отчасти проблема решилась направленным микрофоном, который «забирает» звуковые волны только из определенного сектора перед собой, но также оказалось полезным «подружить» работу камеры и микрофона так, что микрофон задействовался только тогда, когда в поле зрения камеры есть лицо. То есть «Агата» не начинает вдруг ни с того ни с сего отвечать на вопрос или реплику, которая к ней вообще не относилась.

Языки

Голосовые помощники, которых мы встречаем в обычной жизни, не могут разговаривать на разных языках в рамках одной диалоговой сессии, а чтобы переключить язык общения нужно изменить настройки помощника. Агенты Google DilogFlow могут создаваться на нескольких десятках языков. И эта возможность, конечно же, очень подкупает. Кто бы отказался от секретаря, знающего (и не забывающего) 3 десятка языков? Мы поставили перед собой нетривиальную задачу легкого перехода робота с русского на английский и обратно в рамках одного диалога. Представьте, что к «Агате» подходит говорящий только по-английски человек, а она его приветствует по-русски. Нужно чтобы «Агата» могла проанализировать любой ответ посетителя, выявить, что фраза была произнесена по-английски и на английском же предложить посетителю перейти на общение на его родном языке.

Так как у нас нет ни возможностей, ни амбиций на разработку собственной речевой модели, наш конкретный случай решается одновременным использованием нескольких сторонних языковых моделей. Фактически «Агата» сейчас «слушает» собеседника одновременно Яндексом и Google. К сожалению, на сегодняшний день другого более дешевого решения этого вопроса мы не нашли. При этом в любом случае остается довольно много исключений и особенностей. Например, когда «Агата» должна самостоятельно определить использование английских или любых других иностранных слов в речи. Представьте, вы подходите к «Агате» и говорите: «Хеллоу!», а потом продолжаете на русском языке. Это вы поздоровались просто так? Или это сигнал для перехода на английский?

Отдельная головная боль — это распознавание фамилий. В случае с «Агатой» проблема выглядит не такой сложной, как в случае открытого диалога, когда посередине фразы человек произносит фамилию и робот должен понять, что это именно фамилия, а не какая-то часть речи (в русском языке очень много фамилий, которые образованы от наименований животных, географических мест и так далее).

«Агата» оперирует закрытым списком фамилий сотрудников компании клиента, поэтому мы можем сделать несколько вещей для повышения точности распознавания. Во-первых, в диалоговом дереве устанавливаются веса каждого из диалогов, тем самым мы подсказываем роботу, что в данный конкретный момент скорее всего во фразе посетителя прозвучит именно фамилия. Во-вторых, используем специальную библиотеку, которая автоматически производит склонение по падежам имен и фамилий, а также библиотеку уменьшительно-ласкательных имен (роботу нужно подсказать, что Маша Иванова и Мария Иванова – это один и тот же человек)

Но все равно остаются сложности. Очень сложно дается распознавание иностранных фамилий. Все речевые модели стараются каким-то образом трансформировать услышанную фамилию в что-то похожее на русский язык, поэтому приходится заводить отдельную библиотеку исключений. К счастью, таких фамилий совсем немного. Еще непросто распознавать фамилии, которые перекочевали в русский язык из других стран. Например, фамилия «Пак» очень часто моделью воспринималась как «Пока!». В этом случае «Агата» решала, что сейчас самое время попрощаться с собеседником.

Тем не менее, в речи «Агаты» мы добились высокого, достойного процента качественного распознавания. Это с учетом особенностей шумовой среды в местах, где расположены стойки и с учетом необходимости распознавать не только обычную речь, но и фамилии, и англицизмы (например, «отдел комплайнс» или «секьюрити»).

Что умеет «Агата» и заменит ли она секретаря?

Сейчас виртуальный секретарь «Агата» — это в том числе история про технологии, маркетинг и HR бренд. Пока что полностью заменить человека в зоне ресепшн невозможно, но рынок определенно будет двигаться в эту сторону. Пока что «Агата», скорее, подстраховка и возможность ответить на самые частые вопросы без участия человека.

Все сферы деятельности человека, где требуются ответы на стандартные вопросы, выполнение рутинных операций или базовых сервисных функций с развитием технологий будут все больше роботизироваться. В мире уже существуют аэропорты и вокзалы вообще без операторов-людей в зоне регистрации и сдачи багажа — вместо этого в зале вылета привычными рядами стоят автоматы для самостоятельной регистрации. За человеком остается только решение нестандартных вопросов и сложных ситуаций.

«Агата» развивается как ассистент с определенным набором навыков. Сейчас ее основная функция ориентирована в первую очередь на посетителей. Мы хотим уменьшить объем работы, связанный со стандартными задачами по встрече и информированию. То есть роботизировать основную работу секретарей по презентационной функции и общению с посетителями; показать, как современные технологии могут в офисе трансформировать на первый взгляд простую работу. С помощью «Агаты» мы хотим фильтровать входящие потоки эффективно, чтобы это было комфортно для сотрудников компании.

Следующий важный скилл «Агаты» помимо встречи посетителей — это работа с телефонными звонками. Большинство входящих звонков в зоне ресепшн строятся по определенному скрипту: чаще всего это коммерческие предложения и просьбы соединить с определенным специалистом. Оба эти сценария легко можно передать роботу, освободив до 40% рабочего времени квалифицированного специалиста зоны ресепшн.

Общаясь с текущими и потенциальными клиентами, мы видим интерес к «Агате» как помощнику для решения и других задач. Например, для ориентации по офису, чтобы «Агата» могла подсказать, где находится ближайший принтер или свободная переговорная. Как консьерж офиса «Агата» может помочь сотруднику сделать и отправить заявку на ремонтные работы или клининг, подсказать как правильно оформить авансовый отчет и так далее. С учетом того, что «Агата» не обязательно должна представлять из себя большую стойку, а вполне может располагаться на планшете на этаже или даже рабочем месте сотрудника, «Агата» может выполнять множество разных офисных ролей, помогая и облегчая взаимодействие сотрудников, предоставляя доступ к информации в удобном и наглядном виде.

В команде проекта нас четыре человека: менеджер проекта, лингвист, разработчик из российской гейм-дев компании и разработчик из компании, которая занимается речевыми ботами и автоматизацией в рекрутменте. Всё производство сейчас очень кастомное. Сейчас мы планируем выделить «Агату» из основного бизнеса компании, привлечь инвестиции и поставить разработку на поток, но в настоящее время проект двигаем своими силами и экспертизой. В наших ближайших планах расширять список заказчиков, работать над качеством коммуникаций «Агаты» и скоростью ее работы, а также ее функциональностью для расширения количества сценариев использования.

Мы уже сейчас получаем позитивные отзывы от компаний, где установлена «Агата», а также видим живой интерес к виртуальным секретарям для B2B со стороны рынка и потенциальных клиентов. Уверены, что виртуальные секретари не только в компаниях, но и в торговых и бизнес-центрах — это вполне достижимое будущее!

0
14 комментариев
Написать комментарий...
Фёдор Трухин

Посмотрел первую анимацию и всё это выглядит очень всрато, крипово и дёшево, как будто герои из игры симс 15 летней давности. И всё это вызывает противоречивые чувства.
Ваш цифровая асистентка говорит как затарможенная аутистка, а не как человек.
- здравствуйте, я цифровая ассистент аглая, ска..
- кончай пиздеть и пропусти меня
-...жите с какой целью вы пришли в наш офис
- на собеседование
- скажите фамилию имя и отчество сотрудника к которому вы пришли
- а я ебу, мне позвонили и сказали придти сюда, пропусти меня

Ответить
Развернуть ветку
John Doe
Ваш цифровая асистентка говорит как затарможенная аутистка, а не как человек.
Ответить
Развернуть ветку
Фёдор Трухин

А что она скажет если ты ей скажешь:
- я шёл мимо вашего офисного центра и дико захотел срать, я хочу попасть внутрь чтобы воспользоваться вашим чистым туалетом.
Что сделает робот? По законам робототехники Азимова робот не может причинить вред человеку, но и пускать его не совсем правильно.

Ответить
Развернуть ветку
Вася Пражкин
По законам робототехники Азимова робот не может причинить вред человеку

Такому пиздюлей дать - все человечество спасибо скажет.

Ответить
Развернуть ветку
user0564335

просто потому что человеку посрать приспичило? Охуеть

Ответить
Развернуть ветку
Вася Пражкин

Поверьте, он отосрется по-царски.

Ответить
Развернуть ветку
user0564335
К слову сказать, модель оказалась настолько усредненной, что первое нескромное предложение от посетителя об интимной связи «Агата» получила только через 8 месяцев после начала ее работы.

а точно не потому, что просто получилась непривлекательной? По мне это на реальную секретаршу не очень похоже и выглядит очень кринжово. На пикче пример реализации аватара от Samsung, который без проблем можно было бы доработать под ваш сценарий; такое было бы не стыдно поставить, а что вы сделали...

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Darth Swordman

Скорее, ненавидящих аниме)) Если бы любили, то без всяких моральных терзаний запилили бы что-то этакое:

Ответить
Развернуть ветку
user0564335

кстати, что-то такое бы круто смотрелось, мне кажется) Особенно если для каждой компании делать уникальных аватаров, которые будут в себе воплощать стиль и другие качества бренда

Ответить
Развернуть ветку
John Doe
«Здравствуйте, меня зовут Агата»
Ответить
Развернуть ветку
Невероятный Блондин

Так не пойдёт, у неё голос взрослой тётки, а должен быть моложе судя по аватару.

Сразу в мозге отторжение происходит.

Я всё сказал.

Ответить
Развернуть ветку
Darth Swordman

Сбер со своим смарт-дисплеем в этом плане молодцы, кстати (с технической точки зрения). Три аватара и три стиля общения, плюс голоса вполне с образами коррелируют. Но Алиса пока всё же ван лав, хоть и не визуализирована))

Ответить
Развернуть ветку
Taras

Читаю комментарии и мне смешно люди ау, цифровые виртуальные ассистенты только начали входить в нашу жизнь и это не голосовые помощники. То что эта ассистент секретарь не выглядит как вам хочется и не выглядит как проститука или анимешница не говорит не о чем, она в первую очередь секретарь а не проститутка. Говорит она нормально для начала, потом поправят баги. Единственно мне не понравился самый сильный баг это что она отвечает слишком долго на вопросы.

Ответить
Развернуть ветку
11 комментариев
Раскрывать всегда