{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","hash":"257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

Как мы строим бизнес на искусственном интеллекте

И помогаем компаниям обрести свой голос.

Голос — это самый привычный способ взаимодействия между людьми, который теперь понимают и машины. Наша команда разговорных продуктов KODE занимается проектированием и дизайном чат-ботов, телефонных систем и виртуальных ассистентов.

Распределённую команду сложно собрать в офисе. Ребята, которых нет на фото, привет!

За четыре года мы разработали разговорные продукты для Сбера, Тинькофф, HeadHunter, VK, Delivery Club и других крупных компаний, сделали собственный инструмент для VUI-дизайнеров Fabble и создали профессиональное сообщество.

Расскажем, как мы к этому пришли, но сначала разберёмся с теорией.

Что такое разговорный ИИ

Разговорный ИИ (Conversational AI) — один из вариантов искусственного интеллекта. Он может работать на множестве технологий и компонентов, но все они сводятся к способности системы понимать намерения пользователя из его речи (natural language understanding или NLU) и подбирать подходящий ответ или генерировать его самостоятельно.

Сегодня разговорный ИИ принимает формы продвинутых чат-ботов и виртуальных ассистентов, которые отвечают на часто задаваемые вопросы, решают задачи в пользовательских сервисах, оказывают психологическую поддержку и просто болтают.

Мы работаем с разговорными продуктами и в частности с VUI (Voice User Interfaces), развитие которых стало возможно благодаря объединению четырёх компонентов:

  • машинного обучения,
  • приложения для обмена сообщениями,
  • распознавания голоса (automatic speech recognition или ASR)
  • генерации естественной речи из текста (text-to-speech или TTS).

По отдельности они известны уже несколько десятилетий, но их сочетание полностью изменило прогресс разработки. Впервые люди познакомились с разговорным ИИ 11 лет назад, когда Apple презентовала Сири.

Схема работы голосового ассистента

Современные продукты с разговорным ИИ можно разделить на несколько типов, и наша команда работает с каждым из них:

  • Чат-боты — это, как правило, простые диалоговые системы, которые используют только письменную речь. Они наиболее близки к графическим интерфейсам. Текстовые чат-боты удобны, когда пользователь не хочет устанавливать приложение и регистрироваться в нём. Пример — бот техподдержки в Телеграме.
  • Голосовые боты — сравнительно простые диалоговые системы, с которыми пользователь взаимодействует через входящие и исходящие звонки. Такие есть в колл-центрах банков, мобильных операторов, авиакомпаний.
  • Голосовые ассистенты — сложные многофункциональные системы с множеством взаимосвязанных сценариев. Существуют в экранном формате или полностью в голосе. Могут быть широкого профиля и узкоспециализированные (банковские ассистенты). Из всех перечисленных это самый мощный инструмент построения бренда. Примеры — Сири, Алиса, Салют.

Как мы начали работать с разговорным ИИ

Изначально KODE была основана как компания мобильной разработки. Впоследствии профиль расширился и теперь включает также создание веб-сервисов, IoT и сложных бэкенд-систем. Команда не думала про разговорный ИИ, но только до одного момента.

Один из Android-разработчиков заинтересовался голосовыми технологиями. Он начал проектировать диалоговые интерфейсы в качестве pet-проекта и заметил, что нет ни одного удобного инструмента для этого. Идею создать такой инструмент он презентовал CEO компании — получил поддержку и инвестиции. Так в KODE появилась небольшая команда Conversational Products, состоящая из 5 человек. Ребята спроектировали первую версию Fabble — продукта, который существует до сих пор и успешен на международном рынке, но об этом чуть позже.

Компании, которые использовали Fabble, заинтересовались не только продуктом, но и нашей экспертизой в проектировании интерфейсов. Одними из первых были Тинькофф и HeadHunter. Когда SberDevices создал свою экосистему, мы были первыми создателями контента для платформы.

С ростом числа аутсорс-проектов росла и команда. Сначала она состояла из Android и frontend-разработчиков. Затем мы стали нанимать ребят под конкретные задачи — искали дизайнеров голосовых интерфейсов.

О конкретных задачах VUI-дизайнера, пирамиде скилов и сетапах команд мы писали в другой статье на vc.

Любому интерфейсу нужна аналитика, поэтому у нас появился внутренний отдел разговорных аналитиков. Они изучают пользовательские запросы, ищут способы, как на основе логов улучшить продукт.

Сейчас команда постоянно растёт. Наша экспертиза позволяет делать уже не отдельные навыки, а разрабатывать целых голосовых ассистентов: от первой концепции и проектирования UX до анализа логов и обучения NLU.

Какие проекты мы реализовали на аутсорсе

Сейчас в нашем портфеле — кейсы по разработке голосового дизайна, чат-ботов, проектированию навыков для ассистентов Маруси, Олега и Алексы.

Навыки для телефонного секретаря Олега — один из первых аутсорс-проектов команды разговорных интерфейсов.

Олег — это голосовой финансовый помощник, который живёт в мобильном приложении Тинькофф. Мы спроектировали макеты навыков для установки лимитов, заказа билетов в кино, покупки подарков, инвестиций и разработали диалог для первого запуска ассистента.

Навык Endel для Алексы. Endel создаёт персонализированный звуковой фон, помогает настроиться на любые занятия и легче с ними справляться. От нас требовалось сделать редизайн и упростить VUI, добавить возможность оплаты и связать основное приложение со скилом Алексы.

В результате рейтинг навыка вырос с 3,3 до 4 звёзд, а пользователи получили возможность оформлять подписку на Endel голосом.

HR чат-бот. HeadHunter обратился к нам за разработкой чат-бота, который предлагает вакансии кандидатам, проводит предварительный отбор и записывает на собеседования. Мы спроектировали логическую структуру сценариев, порядок повествования, основные и побочные ветки, протестировали бота на пользователях.

На базе этого проекта мы вывели стандарт создания HR-ботов и используем его, чтобы запускать подобные проекты в короткие сроки.

AR-приложение «Английский с Элом» для SkyEng. Это игра с элементами виртуальной и дополненной реальности для детей от 6 до 12 лет. Дебютное приложение SkyEng на платформе SberPortal.

По популярности навык входит в первую тройку игр на платформе для Kidsar — детского набора дополненной реальности. 25% пользователей регулярно возвращается в игру, а средняя длительность сессии составляет около 40 минут.

«Эра фараонов». Смартап для изучения истории Древнего Египта, гибрид офлайнового квеста с голосовым и графическим интерфейсом для всех типов устройств SberDevices.

Мы спроектировали общую механику игры и ключевые сценарии взаимодействия между 400+ игровыми карточками в каждой эпохе. Разработали механику персонализированной выдачи карточек пользователям в зависимости от ранее совершённых действий.

Игра адаптирована под совершенно разные типы экранов. В «Эре фараонов» можно отдавать команды голосом, управлять пультом (если играть со SberBox или SberBox Top) или тачем (в мобильном приложении и SberPortal).

По итогам запуска навыком воспользовались более 50 000 уникальных пользователей. Среди них около 7 000 продолжают регулярно играть в «Эру фараонов».

Навык «Purina Питомцы» для Маруси. Совместно с Mail.ru Group мы разработали систему для голосового ассистента, которую можно регулярно пополнять. Редакторы добавляют новый контент через панель администратора. Благодаря этому, навык активно поддерживается.

Это самые крупные и значимые из наших аутсорс-проектов. Но далеко не всё, над чем работает команда.

Развиваем собственный продукт

Мы помогаем клиентам в автоматизации бизнес-процессов. Для этого наша CP-команда создала Fabble — нативного помощника для дизайна голосовых инструментов с режимом совместной работы по концепции zero сode.

Fabble позволяет визуализировать общение между пользователем и приложением. Процесс строится при помощи блок-схем, где каждый узел — это шаг пользователя или интерфейса в диалоге. Инструмент сохраняет необходимые фразы и тестирует диалоги в интерактивном прототипе, который легко получить, нажав на кнопку. Разработчики смогут экспортировать проект в JSON-формате. Над одним сценарием можно работать командой и шерить драфт.

Инновация продукта заключается в визуальном проектировании диалога в виде блок-схемы. Это делает инструмент нативным и простым для восприятия. Нет никакого цифрового барьера, можно получить прототип без программирования и сразу же протестировать созданный интерфейс. Fabble разработан специально для широкой аудитории: для тех, кто не готов углубляться в технические нюансы.

Когда мы разработали Fabble, это был инновационный продукт. Сейчас на рынке уже появились и другие, но Fabble продолжают использовать дизайнеры из 69 стран мира, большая часть из США. Голосовые интерфейсы с помощью нашего инструмента проектируют 2000+ пользователей, в том числе компании Subway, Nuuk, Tucuvi, Talking To Me, Jetson.

На крупнейшем digital-конкурсе Восточной Европы Tagline Awards 2020–2021 Fabble.io получил две престижные награды: серебро как лучший продукт года среди агентств и бронзу за лучший инновационный сервис в номинации «Работаем из дома».

Растим профессиональное сообщество

Мы не просто проектируем различные системы в сфере разговорного ИИ, но и рассказываем, как именно это делаем.

Первый митап мы провели, когда в пандемию взлетел Клабхаус. Обсуждали очевидные и спорные тренды voice tech. К разговору присоединились продукт-оунеры и лиды из Mail.ru, Альфа-банка, SberDevices, Тинькофф и других крупных игроков рынка.

Тогда профессиональное сообщество обсуждало, как монетизировать голосовых помощников, и можно ли создать единую экосистему ассистентов. Как видим, спустя два года эти идеи так остались идеями.

На втором митапе, через год, мы вместе с экспертами из других компаний искали способы обеспечить хороший UX для разговорного продукта.

Преимущество митапов в том, что на них собирается самая заинтересованная аудитория. В России она не такая большая, как, например, в США, где голосовые технологии широко распространены. Русскоязычное профессиональное сообщество voice tech только развивается. Мы формируем его вокруг телеграм-канала Hey Voice. В нём рассказываем о новостях, которые кажутся нам важными, публикуем экспертные колонки и обучающие материалы.

Всю аудиторию телеграм-канала и митапов собираем на органическом трафике и за счёт взаимного пиара. Канал Hey Voice пока небольшой — на момент написания статьи 850 подписчиков. Но для узкоспециализированной сферы это хороший результат. Мы ставим себе амбициозную цель — объединить всё русскоязычное сообщество, интересующееся voice tech.

2021 год стал для нас ещё и годом, когда мы начали растить профессионалов. Осенью мы провели полноценную стажировку по VUI. За месяц стажёры изучили основы работы VUI-дизайнера: структуру голосового интерфейса, работу со сценариями, узнали, как мы проводим UX-тестирования и анализируем результаты.

В качестве дипломных работ стажёры создавали навыки для Алисы. По окончании два человека получили офферы и влились в команду KODE в качестве VUI-дизайнеров.

COO команды разговорных продуктов Юлия Мицкевич регулярно участвует в крупнейшем российском хакатоне по ИИ «Цифровой прорыв». Она выступает техническим экспертом кейсов и поддерживает молодые команды.

Изначально направление разговорных продуктов не должно было стать таким масштабным в компании. Наши цели были совсем другими: разработать один качественный продукт, актуальный для рынка. Но вместе с продуктом пришли и заказчики. Разработка разговорных продуктов превратилась в отдельное направление в KODE, которое меняет мир вокруг себя и приносит доход.

0
7 комментариев
Написать комментарий...
RufusToonball

Что-то типа

Ответить
Развернуть ветку
Алексей Землянский

Максимы и олеги это беда..

Ответить
Развернуть ветку
Demyan Belyakov

Я пробывал строить на естественном интеллекте. Не прокатило. Теперь буду на искусственном пробывать. Авось.

Ответить
Развернуть ветку
Igor Batkovich

Прочитал "проǝбывать"

Ответить
Развернуть ветку
Demyan Belyakov

Это синонимы жеж.

Ответить
Развернуть ветку
Макович Валерий

Успехов Вашему проекту!

Ответить
Развернуть ветку
KODE
Автор

Спасибо!

Ответить
Развернуть ветку
4 комментария
Раскрывать всегда