Оценивает пульс и дыхание по видео, чтобы понять эмоции клиента: история российской разработки Neurodata Lab

Neurodata Lab потратила на разработку три года и около $2 млн. Среди её клиентов ВТБ, «Росбанк» и другие компании.

Руководящий состав Neurodata Lab: Максим Рябов, Андрей Беляев, Георгий Плиев, Ольга Перепёлкина, Игорь Левин
Руководящий состав Neurodata Lab: Максим Рябов, Андрей Беляев, Георгий Плиев, Ольга Перепёлкина, Игорь Левин

Продукт

Neurodata Lab создала сервис по распознаванию эмоций и пульса по видео и аудио. Компания работает с бизнесами: банками, страховыми и телекоммуникационными компаниями, ритейлерами, а также научными лабораториями и поставляет технологию по API.

Продуктовая сеть собирает записи с камер в торговом зале, а затем отправляет их обрабатываться на сервера Neurodata Lab. Сервис анализирует эмоции клиентов по мимике и движениям тела и определяет индекс удовлетворённости в магазине. Сравнивая статистику по магазинам, сеть может улучшить качество обслуживания.

Также Neurodata Lab анализирует голоса клиента и оператора в колл-центре. Технология распознает агрессию или недовольство звонящего и оповестит об этом руководителя отдела. Тогда он сможет быстро отреагировать и сделать так, чтобы проблемой клиента занялись в первую очередь.

​Определение алгоритмом пола, возраста, эмоции, индекса удовлетворённости и пульса
​Определение алгоритмом пола, возраста, эмоции, индекса удовлетворённости и пульса

Компания представила публичную версию продукта в ноябре 2019 года. Она состоит из восьми модулей:

  1. Распознавание эмоций по лицу.
  2. Мультимодальное распознавание эмоций.
  3. Детекция пульса.
  4. Детекция лиц.
  5. Детекция тел.
  6. Анализ позиции тела.
  7. Распозвание пола и возраста.
  8. Оценка индекса удовлетворенности.

В первом квартале 2020 года Neurodata Lab планирует выпустить SDK для заказчиков.

Технология

Основа разработки — сочетание компьютерного зрения и алгоритмов машинного обучения с методами когнитивных наук. На этом строится эмоциональная и поведенческая аналитика.

В качестве источника информации в основном выступает видео и аудио с камер любого типа. Алгоритмы разбивают сырые данные на кадры и оценивают метрики по каждому из доступных каналов: выражению лица, движению глаз, позе, голосу, речи, жестам.

После этого нейросети обрабатывают информацию и оценивают, какие эмоции испытывает человек, как он себя ведёт, чем занимается.

​Анализ эмоций, пульса и кривая дыхания алгоритмом компании

Также Neurodata Lab разработала технологию, которая определяет пульс человека по видео. По словам управляющего директора и сооснователя фирмы Игоря Левина, компания первой в мире представила облачный сервис на её основе.

Чтобы измерить пульс, алгоритмы Neurodata Lab выделяют из видео лицо и шею человека. Затем фиксируют, как пиксели в выбранной области меняют цвет. Эти значения связывают с насыщенностью крови кислородом и расширением капилляров и по ним вычисляют пульс.

С помощью технологии можно следить за состоянием водителей такси: система зафиксирует повышение пульса и негативные эмоции с учётом ситуации на дороге и погодных условий.

Сейчас, отмечает Левин, технология измеряет пульс с погрешностью два удара в минуту.

В перспективе бесконтактное измерение пульса можно использовать для пациентов больниц, домов престарелых, а также встраивать в систему «умного» дома, чтобы она могла вызвать скорую, если жильцу плохо.

Игорь Левин, управляющий директор Neurodata Lab

Собрав данные, платформа составляет отчёт по каждому кадру в разных форматах — с информацией об эмоциях, пульсе.

​Пример JSON-файла с эмоциями: грусть, тревога, удивление, нейтральность, гнев, радость, отвращение
​Пример JSON-файла с эмоциями: грусть, тревога, удивление, нейтральность, гнев, радость, отвращение

Минимальное разрешение изображения лица, которое может считать камера, — 30 на 30 пикселей. Чаще всего в кадре одновременно хорошо видно до десяти человек, но на качественной видеозаписи технология может обработать и 100 лиц.

Если клиент использует API, данные обрабатываются в облаке. SDK-версия будет работать на серверах заказчиков: это важно для банков, которые по закону «О персональных данных» обязаны хранить информацию внутри компании.

Создание компании

Neurodata Lab основали Георгий Плиев, Максим Рябов и Игорь Левин. До 2016 года они развивали собственный венчурный фонд Envirtue Capital (найти публичную информацию о его работе не удалось, Левин также не раскрыл названия компаний, в которые инвестировал фонд).

Инвесторы искали в России учёных и основателей стартапов, которые занимаются распознаванием эмоций с помощью компьютерного зрения и машинного обучения.

За год им не удалось найти подходящих команд, хотя за границей в этой сфере уже работали не только исследовательские группы, но и компании: Affectiva, Audeering, Kairos. Сервисы для анализа эмоций запустили Microsoft — Cognitive Services в 2015 году, и Amazon — Rekognition в 2016 году.

Сооснователи увидели потенциал анализа эмоций с помощью алгоритмов в банковской и медицинской сферах, автомобильной индустрии и компьютерных играх и занялись разработкой таких технологий для российского b2b-рынка.

В 2016 году партнёры создали компанию и развивали её на средства из собственного фонда.

Одно из первых решений — отказаться от готовых алгоритмов и разработок. По словам Левина, 90% стартапов анализирует эмоции по движению лицевых мышц: если человек улыбается, значит, он рад.

«Современная наука критикует этот подход, потому что для точного анализа нужно учитывать и другие показатели: позы, жесты, голос», — поясняет предприниматель.

У основателей не было подходящих знаний и навыков для разработки технологии: Плиев пришёл в инвестиции из девелопмента, Рябов и Левин — из финансового сектора.

Они начали подбирать команду и столкнулись с проблемой: специалистов, занимающихся эмоциональными технологиями в России, вспоминает Левин, на тот момент не было.

Основатели приглашали отдельно исследователей в области когнитивных наук и психологии и отдельно специалистов из области машинного обучения и рассказывали им о своих планах, предлагая присоединиться к компании.

Первой им удалось привлечь Ольгу Перепёлкину, нынешнего операционного директора и директора по науке.

У неё есть учёная степень в области клинической психологии. Прежде она работала научным сотрудником в Лаборатории нейрофизиологии и нейрокомпьютерных интерфейсов в МГУ и интересовалась эмоциональными вычислениями.

Перепёлкина была знакома с другими исследователями и помогла основателям с поиском сотрудников. Так они пригласили двух учёных: Евдокию Казимирову и Марию Константинову, которые разбираются в психологии и физиологии эмоций.

К началу 2017 года в компании работало три исследователя и четыре разработчика в области машинного обучения.

Фото из лаборатории Neurodata Lab
Фото из лаборатории Neurodata Lab

Первые сотрудники несколько месяцев знакомились с книгами, статьями, исследованиями, посещали конференции в области эмоциональных вычислений, чтобы разобраться в сфере и понять, с чего начать.

После они распределили между собой направления: кто-то стал изучать движение глаз, кто-то — мимику лица, кто-то — позы.

Чтобы собрать данные для обучения нейросетей, Neurodata Lab пришлось пригласить студентов-актёров и попросить их на камеру разыгрывать различные сцены: как делиться с другом грустными новостями о болезни родственника или рассказать партнёру, что забыл купить билеты на самолёт.

Пример сцены из датасета RAMAS (The Russian Acted Multimodal Affective Set)

Специалисты разметили данные, и в январе 2017 года у компании появился собственный набор RAMAS: около 3000 фрагментов видео и аудио продолжительностью пять-десять секунд.

«Одна из трудностей анализа эмоций — их вариативность, которая зависит от контекста или культуры отдельной страны. В разных точках мира один и тот же жест может иметь разные значения», — рассказывает Левин.

К осени Neurodata Lab собрала ещё одну базу данных из 160 часов публично доступных видео на английском. В нём больше 110 тысяч размеченных фрагментов. Под каждый из них сделано более десяти аннотаций, по которым нейросеть учится определять эмоции.

Трудность в разработке технологии заключалась в разных типах данных, которые нужно соотнести между собой, чтобы точно определить эмоцию человека.

Важность каждого канала по оценке Neurodata Lab:

  • 70% — лицо.
  • 15% — голос.
  • 10% — тело.
  • 5% — эмоциональный окрас слов.

Neurodata Lab потратила три года, чтобы довести технологию до стадии продукта, который можно предложить покупателям. Точные затраты на разработку Левин назвать не смог, но оценил их в $2 млн в период с 2016-го по 2019 год.

В конце 2018 года Neurodata Lab привлекла $1 млн от сингапурского фонда MKC Smart Solutions. Долю инвестора Левин не раскрывает.

У Neurodata Lab есть ещё одна технология — измерение частоты дыхания по видео. С её помощью можно заметить резкие перепады в ритме дыхания, чтобы следить за теми, кто болен астмой и другими заболеваниями дыхательных путей. Пока технологии нет в API.

Одновременно Neurodata Lab учит алгоритмы вычислять давление и температуру тела по видео. Сейчас, по словам Левина, бесконтактно определяют температуру только специальные термографические камеры, а измерять давление по видео не умеет никто.

Клиенты и рынок

Первых клиентов разработчик привлекал через отдел менеджеров, который предлагает услуги потенциальным заказчикам.

Среди партнёров компании — ВТБ, «Росбанк», итальянская страховая фирма Assicurazioni Generali, сеть пятизвёздочных отелей в Турции (её название Левин не комментирует).

Точное количество заказчиков компания не называет, но уточняет, что одновременно в работе — десять проектов из России, Европы и Азиатско-Тихоокеанского региона.

Также Neurodata Lab участвовала в выставке электроники CES 2019 в США, научных конференциях ACII 2019, ICMI 2018 и прошла совместный акселератор ФРИИ и ВТБ, после которого начала сотрудничать с банком.

Левин считает, что привлекать новых клиентов трудно: у каждого нужно найти конкретные проблемы и показать, как Neurodata Lab их решит.

За пилотный проект с российскими корпорациями компания получает от 500 тысяч до 1 млн рублей, на него уходит три месяца. Такой срок связан с тем, что крупным заказчикам зачастую не подходят готовые решения Neurodata Lab, поэтому компании приходится адаптировать продукт под их потребности.

Цена API зависит от объёма данных и модуля (возраст и пол, пульс, показатель удовлетворённости и так далее) — от $0,3 до $1,5 за минуту обработанного видео. Стоимость годовой SDK-лицензии Neurodata Lab оценивает от $25 тысяч.

Ежемесячную выручку Neurodata Lab Левин не раскрывает, но говорит, что компания находится на венчурной стадии: развивается за счёт инвестиций, а не только выручки. Основатели намерены выйти в плюс в 2020 году.

Левин рассказывает, что в том же году компания, скорее всего, закроет новый инвестиционный раунд. Сервису нужны инвесторы, которые приведут крупных клиентов. Он же отмечает, что точной оценки мирового рынка эмоциональных вычислений до сих пор нет.

Аналитики расходятся во мнениях: спорят, стоит ли включать в рынок крупных игроков уровня IBM и Apple или нет. По разным прогнозам, оценка рынка составляет от $2,2 млрд до $30 млрд.

Во всём мире этот рынок молод, он только складывается и показывает постоянный устойчивый рост.

Игорь Левин, управляющий директор Neurodata Lab
4444
46 комментариев

Киберпанк - видеозвонок из органа по контролю лояльности царю и вопросы "как вы относитесь к действующей власти?" 

31

Блин. Лайкать или нет этот комментарий...

16

Маски под результат "Любовь: 100,0%" выйдут на IPO

9

У вас увеличился пульс, Вы нервничаете? Дать вам таблетку ?

14

Вы бы хотели, что бы в банке считывали ваши данные. И из-за того что пульс у вас больше чем нужно, отказали в открытие счета? А вы кофе выпили и ботики жмут. )))

9