Кейс: как мы подключили персонализированную оплату на домашних устройствах Sber

Домашнее устройство с виртуальными ассистентами — девайс, которым пользуются все члены семьи. На нём запускают всевозможные индивидуальные сценарии, некоторые из них — платные. Дети и взрослые смотрят сериалы и ролики на YouTube, играют в игры, заказывают продукты. Сделать всё это ещё более удобным и безопасным можно с помощью персонализации, например оплаты.

Как мы реализовали оплату любых покупок на устройствах с помощью распознавания лица и голоса, рассказывает продакт SberDevices Дарья Коновалова.

Дарья Коновалова
знает, как сделать домашние устройства безопасными

Персонализация умных девайсов и сценариев их использования несомненно станет трендом ближайших лет. Для умных устройств под персонализацией нужно понимать два основных направления: возможность девайса понимать контекст и текущую задачу пользователя (какой фильм он хочет посмотреть, в какое время нужно напомнить о рутинных делах и т.д.), а второе — это гибкое разделение ролей и управление доступами для всех членов семьи на домашнем устройстве. Мы в SberDevices активно развиваем оба направления, но сегодня хотим рассказать о важной фиче — персонализированном доступе к оплатам на смарт-девайсах с камерой.

Бабушка, дети и Смарт ТВ

Смарт-дисплей SberPortal и ТВ-медиацентр SberBox Top часто становятся местом притяжения всех домашних. Это устройства с камерой и экраном, и так или иначе ими пользуются все, кто находится поблизости. С одной стороны, доступ к ним имеют все члены семьи, с другой — есть определённые сценарии, для которых важны приватность и гибкие настройки. И мы постарались сделать использование умных устройств Sber удобным и безопасным для всей семьи.

После ряда глубинных интервью с пользователями, у которых девайс стоит дома и все члены семьи имеют к нему доступ, стал понятен наиболее чувствительный сценарий с необходимостью настройки доступов. Это покупки с привязанной к устройству карты.

Девайс стоит дома, и люди переживают не из-за того, что условные грабители попадут в их квартиру и будут делать покупки в «Самокате» или через наш сервис видеошопинга Layer с их карты, а из-за возможных случайных покупок, которые могут совершить дети или пожилые родители.

В случае с детьми проблема частично решалась включением «Детского режима», который блокирует возможность оплаты сохранённой картой для всех, в том числе и для взрослых. В «Детском режиме» покупка возможна только через QR-код с подтверждением в смартфоне. Это удобно для родителей с точки зрения контроля случайных покупок с привязанной к устройству карты, которые могли бы совершить дети, но в то же время добавляет дополнительные шаги для взрослых, когда они сами хотят что-то оплатить. Кроме того, теряется магия бесшовности и быстрого решения вопроса с помощью смарт-девайса.

Один из респондентов во время интервью поделился историей, которая значительно повлияла на функциональность персонализированной оплаты: его бабушка случайно делала покупки фильмов на Смарт ТВ, не понимая, что происходит оплата, — настолько всё происходило бесшовно и быстро.

Мы поняли, что хотим сделать так, чтобы владелец устройства мог гибко управлять доступами для оплаты, но при этом она должна происходить моментально, без необходимости искать смартфон. Нужно было добиться, чтобы ребёнок или пожилой человек не могли совершить случайную покупку.

Кейс: как мы подключили персонализированную оплату на домашних устройствах Sber

Теперь на SberBox Top и SberPortal заказ продуктов, подписку или фильм можно оплатить с помощью персонализированного доступа к сохранённой банковской карте на устройстве. Для подтверждения оплаты достаточно просто посмотреть в камеру и прочитать вслух случайное сочетание из шести цифр, отображаемых на экране.

Кейс: как мы подключили персонализированную оплату на домашних устройствах Sber

Если полученная информация совпадает с данными профиля, созданного на устройстве, система одобряет оплату с привязанной карты. Если же для этого пользователя включены ограничения — экран покажет ему QR-код для оплаты, и она не пройдёт без ведома владельца карты.

Вот как это работает.

Производительность устройств и шум чайника: с чем мы столкнулись при разработке фичи

Немного бэкстейджа: вот какие технологии мы использовали для реализации этой фичи и с какими сложностями столкнулись.

Чтобы пользоваться персонализированной оплатой, нужно создать свой профиль на устройстве: сделать фотографию лица и прочитать несколько коротких фраз. В основе функциональности лежат две ключевые технологии — распознавание по лицу и распознавание по голосу. Расскажу про каждую в отдельности.

Мы сами усложнили себе жизнь тем, что принципиально решили делать весь computer vision-стек работающим локально на устройстве. Это означает, что для распознавания кадры не передаются куда бы то ни было за пределы устройства — ни на бэкенд, ни в какие-либо облака. Всё хранится и обрабатывается локально на самом девайсе. После настройки персонализации снимок лица пользователя (а точнее, его математическое представление) хранится тоже только на устройстве. Локальная обработка — это продуктовое требование, из-за которого пришлось портировать и адаптировать нейронные сетки под аппаратные возможности девайсов. Наши устройства для своих задач достаточно мощные, но, конечно, не суперкомпьютеры с большим количеством GPU (графических процессоров). При этом сильная сторона устройств Sber — специализированные модули NPU (нейронные процессоры), которые позволяют увеличивать скорость работы нейронных сеток.
Чтобы сети работали корректно, необходимо адаптировать их под микропроцессоры – а для этого нужны специальные экспертизы и тесное взаимодействие с самим вендором чипа. В области лицевого распознавания нашим технологическим партнёром стала команда VisionLabs. А наша внутренняя команда обеспечивала всю инфраструктуру вокруг камеры в устройствах, чтобы сделать локальное распознавание возможным.

Если в разработке лицевого распознавания основным вызовом была адаптация технологии под аппаратные возможности устройств, то с голосом основной проблемой был сбор релевантного датасета.

Для нашей команды не было сюрпризом, что для любых задач распознавания по голосу важна как микрофонная матрица самого устройства, так и акустические особенности помещения, где находится устройство, расположение девайса в нём. Например, если он стоит в углу, то звук отражается особенным образом и будет сильно отличаться от того, который попадает на микрофонную матрицу, когда девайс стоит в центре комнаты. Для обучения модели нам нужно было собрать датасет, состоящий из пар: образец голоса и голосовые запросы от одного и того же респондента. Получить такой набор данных возможно, только делая специальные записи, когда в студию приглашаются актеры, и они по определённому сценарию читают фразы.

Процесс сбора данных — это всегда долго и почти всегда непросто, мы учли практически все детали и кейсы по расположению девайсов в пространстве. Вот мы в студии. Стоят устройства, актёры зачитывают фразы. И вот она, наша боль и неожиданность: такие студийные записи с читкой актёров мало похожи на реальные запросы пользователей. Они, с одной стороны, слишком чёткие в плане произношения, с другой — в них нет нужной естественной эмоциональности, которая свойственна людям при общении с виртуальными ассистентами. В обычной жизни мы говорим гораздо разнообразнее: с широким спектром эмоциональной окраски, с разной скоростью и громкостью, по-разному делаем паузы, сбиваясь или проглатывая части слов. Кроме того, в наших квартирах полно шумов, к которым мы привыкли. Они крайне важны для сетки распознавания: шум машин за окном, чайник или струя воды, болтовня на фоне, включённый телевизор и т.д. Нам пришлось проделать несколько итераций, чтобы наконец получить датасет, наиболее похожий по звучанию на речь в естественных условиях. А потом начался кропотливый этап дообучения и тюнинга сетки, чтобы она могла распознавать человека в самых разных условиях — при шуме включённой воды или звуке телевизора на фоне.

Наш коллега Саид, продакт SberBox Top, тестирует фичу.
Наш коллега Саид, продакт SberBox Top, тестирует фичу.

Как настроить персонализацию на устройствах Sber

Пользователю нужно зарегистрировать свой профиль: ввести имя или никнейм, записать изображение лица и прочитать несколько фраз своим голосом.

При регистрации лица нейросеть сжимает информацию из изображения в компактный вектор. По сути, это уникальный идентификатор пользователя, и хранится он локально на устройстве.

Кейс: как мы подключили персонализированную оплату на домашних устройствах Sber

После успешного запоминания лица пользователю нужно прочитать несколько фраз с экрана, похожих на обычные пользовательские запросы вроде «Какая погода в Нижнем Новгороде завтра и на следующих выходных» или «Закажи земляничное варенье в “Самокате”». Из этих запросов выделяются уникальные характеристики голоса пользователя, высчитывается вектор для голоса. Так девайс учится отличать конкретно этого пользователя от других.

Кейс: как мы подключили персонализированную оплату на домашних устройствах Sber

Настройки персонализации доступны только при прохождении этих двух шагов, так как мы используем двухфакторную аутентификацию по лицу и голосу. Если записано только лицо, девайс будет узнавать пользователя по лицу и даже здороваться с ним, но управление настройками персонализированной оплаты будет недоступно.

Девайс узнал меня и поприветствовал.
Девайс узнал меня и поприветствовал.

После регистрации голоса и лица необходимо подтвердить свой профиль в мобильном приложении Сбер Салют. Для этого нужно открыть настройки вашего SberPortal или SberBox Top и перейти в раздел «Пользователи». После подтверждения профиля владелец может гибко управлять настройками, решать, кому ещё из пользователей будет доступна оплата привязанной картой.

Удалить созданный профиль со всеми лицевыми и голосовыми данными можно в любой момент — как на самом устройстве, так и через мобильное приложение Сбер Салют.

Как подключить персонализацию на SberBox Top и SberPortal


1. Зарегистрируйте свой профиль на устройстве. Сохраните фотографию своего лица и образец голоса на устройстве. Если пропустить шаг записи изображения лица или записи голоса, персонализация будет недоступна, устройство не будет различать пользователей. Оплатить продукты или подписку можно будет традиционным способом — без проверки.


2. Подтвердите профиль в мобильном приложении Сбер Салют и включите настройку оплаты. Если пропустить этот шаг, персонализация оплаты доступна не будет.


3. Если нужно, настройте профили других пользователей устройства: могут ли они пользоваться вашей банковской картой? Чтобы система распознавала домочадцев, им также нужно пройти регистрацию, описанную в пункте 1.


4. Ура! Можно пользоваться персонализацией! Если регистрация выполнена правильно и на устройстве включена проверка по лицу и голосу, при попытке провести оплату сервис попросит посмотреть в камеру и прочитать шесть цифр. Система сравнит полученные данные с сохранёнными и поймёт, может ли домочадец пользоваться привязанной картой. Если доступ есть, произойдёт оплата. Если доступа нет, система предложит пользователю оплатить покупку с помощью QR-кода.

77
4 комментария

Вот как раз фича про персонализацию оплаты, о которой мы рассказываем в тексте выше, и защитит от таких несанкционированных заказов тонн попкорна :)

А что касается передачи речи, то ничего никуда не передается, пока вы не позовете виртуальных ассистентов словом-споттером и не начнёте озвучить им свой запрос.

В особых ситуациях всегда можно отключить микрофоны на физическом уровне и закрыть камеру механически. В наших девайсах этот момент продуман.

неясно:
1) зачем нужна двухфакторная аутентификация? Почему недостаточно одного лица?
2) есть ли какой-то лимит на покупки с помощью сбердевайса? Например, можно купить до 1000 рублей только