Оценивает пульс и дыхание по видео, чтобы понять эмоции клиента: история российской разработки Neurodata Lab Статьи редакции
Neurodata Lab потратила на разработку три года и около $2 млн. Среди её клиентов ВТБ, «Росбанк» и другие компании.
Продукт
Neurodata Lab создала сервис по распознаванию эмоций и пульса по видео и аудио. Компания работает с бизнесами: банками, страховыми и телекоммуникационными компаниями, ритейлерами, а также научными лабораториями и поставляет технологию по API.
Продуктовая сеть собирает записи с камер в торговом зале, а затем отправляет их обрабатываться на сервера Neurodata Lab. Сервис анализирует эмоции клиентов по мимике и движениям тела и определяет индекс удовлетворённости в магазине. Сравнивая статистику по магазинам, сеть может улучшить качество обслуживания.
Также Neurodata Lab анализирует голоса клиента и оператора в колл-центре. Технология распознает агрессию или недовольство звонящего и оповестит об этом руководителя отдела. Тогда он сможет быстро отреагировать и сделать так, чтобы проблемой клиента занялись в первую очередь.
Компания представила публичную версию продукта в ноябре 2019 года. Она состоит из восьми модулей:
- Распознавание эмоций по лицу.
- Мультимодальное распознавание эмоций.
- Детекция пульса.
- Детекция лиц.
- Детекция тел.
- Анализ позиции тела.
- Распозвание пола и возраста.
- Оценка индекса удовлетворенности.
В первом квартале 2020 года Neurodata Lab планирует выпустить SDK для заказчиков.
Технология
Основа разработки — сочетание компьютерного зрения и алгоритмов машинного обучения с методами когнитивных наук. На этом строится эмоциональная и поведенческая аналитика.
В качестве источника информации в основном выступает видео и аудио с камер любого типа. Алгоритмы разбивают сырые данные на кадры и оценивают метрики по каждому из доступных каналов: выражению лица, движению глаз, позе, голосу, речи, жестам.
После этого нейросети обрабатывают информацию и оценивают, какие эмоции испытывает человек, как он себя ведёт, чем занимается.
Также Neurodata Lab разработала технологию, которая определяет пульс человека по видео. По словам управляющего директора и сооснователя фирмы Игоря Левина, компания первой в мире представила облачный сервис на её основе.
Чтобы измерить пульс, алгоритмы Neurodata Lab выделяют из видео лицо и шею человека. Затем фиксируют, как пиксели в выбранной области меняют цвет. Эти значения связывают с насыщенностью крови кислородом и расширением капилляров и по ним вычисляют пульс.
С помощью технологии можно следить за состоянием водителей такси: система зафиксирует повышение пульса и негативные эмоции с учётом ситуации на дороге и погодных условий.
Сейчас, отмечает Левин, технология измеряет пульс с погрешностью два удара в минуту.
Собрав данные, платформа составляет отчёт по каждому кадру в разных форматах — с информацией об эмоциях, пульсе.
Минимальное разрешение изображения лица, которое может считать камера, — 30 на 30 пикселей. Чаще всего в кадре одновременно хорошо видно до десяти человек, но на качественной видеозаписи технология может обработать и 100 лиц.
Если клиент использует API, данные обрабатываются в облаке. SDK-версия будет работать на серверах заказчиков: это важно для банков, которые по закону «О персональных данных» обязаны хранить информацию внутри компании.
Создание компании
Neurodata Lab основали Георгий Плиев, Максим Рябов и Игорь Левин. До 2016 года они развивали собственный венчурный фонд Envirtue Capital (найти публичную информацию о его работе не удалось, Левин также не раскрыл названия компаний, в которые инвестировал фонд).
Инвесторы искали в России учёных и основателей стартапов, которые занимаются распознаванием эмоций с помощью компьютерного зрения и машинного обучения.
За год им не удалось найти подходящих команд, хотя за границей в этой сфере уже работали не только исследовательские группы, но и компании: Affectiva, Audeering, Kairos. Сервисы для анализа эмоций запустили Microsoft — Cognitive Services в 2015 году, и Amazon — Rekognition в 2016 году.
Сооснователи увидели потенциал анализа эмоций с помощью алгоритмов в банковской и медицинской сферах, автомобильной индустрии и компьютерных играх и занялись разработкой таких технологий для российского b2b-рынка.
В 2016 году партнёры создали компанию и развивали её на средства из собственного фонда.
Одно из первых решений — отказаться от готовых алгоритмов и разработок. По словам Левина, 90% стартапов анализирует эмоции по движению лицевых мышц: если человек улыбается, значит, он рад.
«Современная наука критикует этот подход, потому что для точного анализа нужно учитывать и другие показатели: позы, жесты, голос», — поясняет предприниматель.
У основателей не было подходящих знаний и навыков для разработки технологии: Плиев пришёл в инвестиции из девелопмента, Рябов и Левин — из финансового сектора.
Они начали подбирать команду и столкнулись с проблемой: специалистов, занимающихся эмоциональными технологиями в России, вспоминает Левин, на тот момент не было.
Основатели приглашали отдельно исследователей в области когнитивных наук и психологии и отдельно специалистов из области машинного обучения и рассказывали им о своих планах, предлагая присоединиться к компании.
Первой им удалось привлечь Ольгу Перепёлкину, нынешнего операционного директора и директора по науке.
У неё есть учёная степень в области клинической психологии. Прежде она работала научным сотрудником в Лаборатории нейрофизиологии и нейрокомпьютерных интерфейсов в МГУ и интересовалась эмоциональными вычислениями.
Перепёлкина была знакома с другими исследователями и помогла основателям с поиском сотрудников. Так они пригласили двух учёных: Евдокию Казимирову и Марию Константинову, которые разбираются в психологии и физиологии эмоций.
К началу 2017 года в компании работало три исследователя и четыре разработчика в области машинного обучения.
Первые сотрудники несколько месяцев знакомились с книгами, статьями, исследованиями, посещали конференции в области эмоциональных вычислений, чтобы разобраться в сфере и понять, с чего начать.
После они распределили между собой направления: кто-то стал изучать движение глаз, кто-то — мимику лица, кто-то — позы.
Чтобы собрать данные для обучения нейросетей, Neurodata Lab пришлось пригласить студентов-актёров и попросить их на камеру разыгрывать различные сцены: как делиться с другом грустными новостями о болезни родственника или рассказать партнёру, что забыл купить билеты на самолёт.
Специалисты разметили данные, и в январе 2017 года у компании появился собственный набор RAMAS: около 3000 фрагментов видео и аудио продолжительностью пять-десять секунд.
«Одна из трудностей анализа эмоций — их вариативность, которая зависит от контекста или культуры отдельной страны. В разных точках мира один и тот же жест может иметь разные значения», — рассказывает Левин.
К осени Neurodata Lab собрала ещё одну базу данных из 160 часов публично доступных видео на английском. В нём больше 110 тысяч размеченных фрагментов. Под каждый из них сделано более десяти аннотаций, по которым нейросеть учится определять эмоции.
Трудность в разработке технологии заключалась в разных типах данных, которые нужно соотнести между собой, чтобы точно определить эмоцию человека.
Важность каждого канала по оценке Neurodata Lab:
- 70% — лицо.
- 15% — голос.
- 10% — тело.
- 5% — эмоциональный окрас слов.
Neurodata Lab потратила три года, чтобы довести технологию до стадии продукта, который можно предложить покупателям. Точные затраты на разработку Левин назвать не смог, но оценил их в $2 млн в период с 2016-го по 2019 год.
В конце 2018 года Neurodata Lab привлекла $1 млн от сингапурского фонда MKC Smart Solutions. Долю инвестора Левин не раскрывает.
У Neurodata Lab есть ещё одна технология — измерение частоты дыхания по видео. С её помощью можно заметить резкие перепады в ритме дыхания, чтобы следить за теми, кто болен астмой и другими заболеваниями дыхательных путей. Пока технологии нет в API.
Одновременно Neurodata Lab учит алгоритмы вычислять давление и температуру тела по видео. Сейчас, по словам Левина, бесконтактно определяют температуру только специальные термографические камеры, а измерять давление по видео не умеет никто.
Клиенты и рынок
Первых клиентов разработчик привлекал через отдел менеджеров, который предлагает услуги потенциальным заказчикам.
Среди партнёров компании — ВТБ, «Росбанк», итальянская страховая фирма Assicurazioni Generali, сеть пятизвёздочных отелей в Турции (её название Левин не комментирует).
Точное количество заказчиков компания не называет, но уточняет, что одновременно в работе — десять проектов из России, Европы и Азиатско-Тихоокеанского региона.
Также Neurodata Lab участвовала в выставке электроники CES 2019 в США, научных конференциях ACII 2019, ICMI 2018 и прошла совместный акселератор ФРИИ и ВТБ, после которого начала сотрудничать с банком.
Левин считает, что привлекать новых клиентов трудно: у каждого нужно найти конкретные проблемы и показать, как Neurodata Lab их решит.
За пилотный проект с российскими корпорациями компания получает от 500 тысяч до 1 млн рублей, на него уходит три месяца. Такой срок связан с тем, что крупным заказчикам зачастую не подходят готовые решения Neurodata Lab, поэтому компании приходится адаптировать продукт под их потребности.
Цена API зависит от объёма данных и модуля (возраст и пол, пульс, показатель удовлетворённости и так далее) — от $0,3 до $1,5 за минуту обработанного видео. Стоимость годовой SDK-лицензии Neurodata Lab оценивает от $25 тысяч.
Ежемесячную выручку Neurodata Lab Левин не раскрывает, но говорит, что компания находится на венчурной стадии: развивается за счёт инвестиций, а не только выручки. Основатели намерены выйти в плюс в 2020 году.
Левин рассказывает, что в том же году компания, скорее всего, закроет новый инвестиционный раунд. Сервису нужны инвесторы, которые приведут крупных клиентов. Он же отмечает, что точной оценки мирового рынка эмоциональных вычислений до сих пор нет.
Киберпанк - видеозвонок из органа по контролю лояльности царю и вопросы "как вы относитесь к действующей власти?"
Блин. Лайкать или нет этот комментарий...
вы лайкнули, но без улыбки!
отсутствие улыбки у лайка как определяли? по дыханию, размеру зрачков или др?
Маски под результат "Любовь: 100,0%" выйдут на IPO
У вас увеличился пульс, Вы нервничаете? Дать вам таблетку ?
Вы бы хотели, что бы в банке считывали ваши данные. И из-за того что пульс у вас больше чем нужно, отказали в открытие счета? А вы кофе выпили и ботики жмут. )))
Технология, конечно, отличная... Только вот пугают возможные перспективы использования. Да, я немного параноик)
Все что описано в посте уже давно прямо в браузере доступно: https://github.com/justadudewhohacks/face-api.js
Комментарий недоступен
Так никто же не мешает вам продолжать использовать скрипты из гитхаба и запиливать B2C приложения по распознаванию "эмоций" на базе AU (action units) и FACS. Рынок для этого открыт, дерзайте. Только примите во внимание, что для академической науки, а равно для affective computing сообщества, все эти истории давно уже устарели и постепенно уходят. Потому что человек - это сложная биологическая система, существующая в социальном контексте, и чтобы хотя бы приблизиться к понимаю того, как он устроен, нужно изучать и интерпретировать его комплексно: разбираться с природой эмоций и с тем, как они функционируют в привязке к разным культурам и типам общества (а это большие данные, которых в таком количестве и разнообразии нет вовсе), уметь работать с физиологией, как контактно, так и все больше удаленно, смотреть на паттерны поведения и искать зависимости, не забывать про сугубо нейрокогнитивные процессы, думать о том, а как же учитывать в риал-тайм анализе и саму ситуацию (а ситуации - это нередко социальные коммуникации и взаимодействия вас со структурами, с институтами (гораздо чаще, чем вас же с друзьями и родственниками): вы в банке, в страховой компании, в метро, в службе "одного окна", в супермаркете, на автозаправке, в госпитале, в лобби отеля, на концерте и т.д. и т.п.). Именно поэтому суть работы Neurodata Lab не только как B2B компании (создающей ценность для бизнеса), но и как научно-исследовательской лаборатории - в поиске новых путей и подходов к human analytics. А это требует времени и усилий: с коллегами из Майкрософта, Амазона, MIT, Аффективы и т.д. все это обсуждается в кулуарах конференций уже довольно давно.
Комментарий недоступен
Цель моей ответной реплики Вам - отметить объективную сложность всей проблематики распознавания и анализа состояний человека. Вы можете не соглашаться и апеллировать к уже имеющимся скриптам - почему бы нет, ведь есть задачи, которые с их помощью могут быть решены с приемлемым для всех сторон результатом. Но упрощение - не выход, наша индустрия движется совершенно другими путями. А видите вы тут ровно то, о чем захотел написать журналист. Под капотом - большая лаборатория, труд многих людей, и об этом мы тоже в свой черед расскажем.
Правильно делаете. Товарищ майор уже думает где использовать эту новую технологию.
Комментарий недоступен
По девушке и так видно что она нервничает. Полиграф она не пройдет.
Они сделала 40 приседаний до записи видео :)
Что-то когда я дышу у меня так грудная клетка не летает
И так и сяк попробовал
На месте стоит
Комментарий недоступен
А ты шаришь в шутках!
У мужчин и женщин разный тип дыхания. У женщин в основном грудное. У мужчин в основном брюшное. Дыхание у мужчин по общему движению тела, по расширению/сужению ноздрей можно вычислять.
На видео деффчонки, система мужиков не читает по полной...
А если ещё и бухнул, то ваще обвалишь ИИ...
Я вот думаю кадровики посредники крупные её закупили?
Они любят дистанционно тестировать... Им первым в кассу система.
Система одинаково корректно работает и с мужчинами, с и женщинами. Детектируются микродвижения грудной клетки, в процессе дыхания они проявляются у всех.
Вся статья состоит из фраз "не раскрывает", "не уточняет", "не комментирует"..🙃
А так, сам концепт анализа видео-стрима - прикольный, за этим будущее (хотя, наверное, такое будущее немного пугает! 🤫)
Это скорее вопросы к стилю повествования журналиста, автора статьи, и ее интерпретации услышанного =)
Может ли распознавать всё это на детях? Если да, то с какого возраста? Интерес не праздный.
Андрей, да, конечно, технологии распознавания физиологических сигналов будут корректно работать на любых возрастных категориях. С точки зрения распознавания эмоций есть нюансы, но они решаются дообучением нейросетей на новых данных.
Доктор Лайтман уходит на пенсию((
Крутая разработка!
воу воу
Отлично! Уверен, с такими возможностями вы найдёте и другие применения этой разработки. Красавчики, чёткий подход 👍
🔥
Дорого. Медицинские браслеты в 100 раз дешевле. То есть нужна ниша где их не получится использовать.
Маркетинговые исследования, но законность их под сомнением. В теории нужно согласие испытуемых. Просто нет законов, пока не запрещено.
Как то узко ты думаешь, в отделениях банка, в точках продаж, на границе, рынок мега огромный.
Очень классно
Да это же тест Войт-Кампфа
«Греко» (с) 13 друзей Оушена
А нет здесь девов, которые в этом направлении уже экспериментируют, но еще не работают ни с кем или хотят попробовать создать что-то подобное, только с другими алгоритмами? Ищу команду адекватных ребят
есть
мы работаем над похожим решением только ближе к медицине
Все эти функции встроить в google glass, и вот он – киберпанк.
Т.е. получается что бы меня обслужили мне надо звонить и сразу начинать кричать, нервничать и показывать свои эмоции? Если я нормально общаюсь, то на меня можно не обращать внимание и не решать мои вопросы?!
Комментарий удален модератором
"банками, страховыми и телекоммуникационными компаниями" - а зачем этим высерам знать какой у меня пульс, давление ?
как минимум для того, чтобы знать степень вашего охуевания от их сервиса. Ну или его отсутствия. Тут уж как получится...