Как мы придумали SberPortal и почему будущее за гаджетами с экранами

На осенней Сбер Конф, главной презентации уходящего года, Сбер показал сразу несколько умных устройств. Их сделали мы — команда SberDevices. О том, кто и как придумывает, создаёт и улучшает такие устройства, мы будем рассказывать в этом блоге. Начнём с рассказа про SberPortal — смарт-дисплей с голосовым управлением, мощной умной камерой, акустикой от Harman Kardon и другими фичами.

Почему мы сделали смарт-дисплей, а не очередную умную колонку

На старте у нас было несколько задач. Мы решили создать абсолютно новое для российского рынка устройство, которое смогло бы не только закрыть большую часть потребностей пользователя, но и удивить его. И мы задумались о том, как это будет выглядеть.

Рынок умных устройств растёт, количество предложений от крупных компаний и стартапов — тоже. Например, на российском рынке уже есть несколько достойных умных колонок. При этом визуальный канал восприятия информации для большинства людей всё ещё самый важный. Обычная умная колонка, в которой живёт виртуальный помощник, может слышать пользователя, отвечать ему и быть полезной — включать музыку, рассказывать о погоде за окном. Но для многих из нас отсутствие визуальной составляющей остаётся проблемой. Кому-то некомфортно не видеть плейлист, когда проигрывается музыка, а кто-то был бы рад заказать продукты к ужину с помощью голосовых команд, но не хочет этого делать, не оценив их внешний вид. Покупка товаров с помощью голосового управления — сложный кейс, и далеко не все компании смогли предложить удобный способ это делать.

И таких сценариев много. Поэтому мы решили поселить виртуальных ассистентов в умное устройство с экраном — смарт-дисплей. Это вполне логичный шаг — следующая ступень эволюции гаджетов, тренд, который хорошо отражает растущая популярность таких устройств на развитых рынках. Функциональность SberPortal за счёт наличия дисплея гораздо шире, чем у обычной умной колонки. Например, с его помощью можно заказывать товары и видеть при этом корзину, смотреть кино, играть в игры и общаться по видеосвязи. Да и традиционные «колоночные» сценарии стали удобнее.

Привычные функции там тоже есть. Конечно, наши виртуальные ассистенты (а их три — Сбер, Джой и Афина) могут рассказать о погоде, включить музыку или поставить таймер. И если умную колонку нужно подключать к телевизору, чтобы что-то увидеть, то смарт-дисплей — самостоятельное устройство.

Почему SberPortal именно такой

Мы хотели создать устройство, которое объединило бы в себе множество возможностей для удобной жизни и облегчило бы быт. Какие это возможности? Прежде всего — ассистенты семейства Салют, которые незаменимы и на кухне, и в спальне, и в детской. Дальше — проигрывание музыки. Но не компромиссное, а по-настоящему впечатляющее. Связь — чтобы оставаться в контакте с близкими и друзьями. А главное — управление. Оно должно быть удобным в разных ситуациях: когда вокруг шумно, если заняты руки или хочется полного контроля через тач-интерфейс. Поэтому SberPortal такой нетривиальный внешне — со всех сторон разный и при этом красивый и удобный.

SberPortal — сложное техническое устройство, и при этом полностью кастомное, то есть разработанное в SberDevices с нуля. Отдельные решения мы тоже разрабатывали с нуля: например, широкоугольную 4K AI-камеру. Во всех других устройствах этой категории таких мощных камер нет, но мы сознательно сделали её такой. Камеры, встроенные в смартфоны и другие устройства, не рассчитаны на продолжительную работу — пластиковые линзы мобильных камер нагреваются и временно деформируются, а это влияет на качество изображения. Нам хотелось создать девайс, который было бы удобно использовать для продолжительных видеозвонков, поэтому в камере совмещены пластиковые и стеклянные линзы и она может работать долго, если кому-то вдруг захочется общаться с друзьями по видео нон-стоп. Благодаря нейросетям мы реализовали технологию смарт-фокуса — во время видеозвонков камера может фокусироваться на пользователе, даже если он двигается. Если вы решили заняться, например, приготовлением еды во время видеозвонка, собеседник вас не потеряет из виду. Ещё камера может распознавать лицо владельца и его жесты.

Управление жестами — новинка для рынка, к которой пользователям предстоит привыкнуть. В некоторых устройствах такая функция есть уже сейчас, но обычно речь идёт об одном жесте, который запускает или останавливает какие-то процессы. У нас жестов несколько — например, жестом V («виктория») можно активировать виртуального ассистента. Показав камере открытую ладонь, пользователь может приостановить или продолжить воспроизведение контента. Это удобно, если вам, допустим, нужно срочно отвлечься на телефонный разговор. Или представьте: у вас дома проходит шумная вечеринка и играет песня, которая вам нравится, — необязательно прерывать беседу с друзьями и делать музыку потише, можно поднять вверх большой палец, а SberPortal распознает лайк и поймет, что трек нужно добавить в плейлист (показывать дизлайки также можно — их камера тоже распознает).

Ещё одно решение — матрица из шести микрофонов, которая способна определять источник речи, фокусироваться на нём и лучше «слышать». Матрицу мы разработали совместно с Fraunhofer IIS (Институтом интегральных схем общества Фраунгофера). Микрофоны очень чувствительны. Даже если пользователь обратится к Сберу, Джой или Афине с большого расстояния, виртуальный помощник среагирует и заговорит с ним. Технология вычитания собственного звука позволяет ассистенту услышать вас даже во время воспроизведения музыки или фильма, и не нужно повышать голос. А если вы используете больше одного SberPortal, можно в каждом из них выбрать своего ассистента и обращаться к ним по имени: «Джой, найди музыку для вечеринки» или «Афина, поставь таймер». Это называется мультиспоттер. Благодаря ему виртуальные помощники не помешают друг другу.

Кстати, акустическую систему для SberPortal разработала команда из Harman Kardon, а настраивать звук помогали японские инженеры. В основе системы — кастомный дизайн камеры с 70-миллиметровым широкополосным и 84-миллиметровым пассивным излучателями. Всё это позволяет выдавать глубокий бас, чистые верхние частоты и рассеивающийся на 360° звук — мы постарались сделать так, чтобы прослушивание музыки стало отдельным интересным опытом. А ещё в SberPortal установлено адаптированное под устройство приложение сервиса СберЗвук. Оно поддерживает формат воспроизведения треков, которые записаны без потери качества (такие композиции отмечены значком HQ). При создании таких треков используется кодек FLAC. Он не удаляет акустически значимой информации из аудиопотока и не приводит к ухудшению качества звучания музыкальных композиций.

Мы дали пользователям возможность управлять устройством несколькими способами — сделали тачскрин, голосовое управление и управление жестами. Это делает SberPortal универсальным устройством, с которым удобно взаимодействовать в разных ситуациях. Если хочется детально в чём-то разобраться, например, выбрать продукты к ужину, можно использовать тачскрин, если нужно запустить видео, не вставая с дивана, — голосовое управление, а жестом без лишних слов остановить воспроизведение музыки.

При этом и «зрение», и «слух» устройства можно отключить. Созданный именно для этого «колпачок» надевается на камеру и полностью её закрывает. Микрофоны можно отключить механически, нажав специальную кнопку. Так мы даём пользователям возможность обеспечить себе полную приватность.

Дизайн устройства разработан с нуля: нам хотелось, чтобы девайс не просто выполнял какие-то функции, но и украшал пространство. Мы сделали смарт-дисплей таким, чтобы он вписался в современный интерьер, и предоставили пользователям выбор, создав устройство в чёрном и белом цветах.

Как может (и будет) развиваться устройство с дисплеем

Разница в разработке хардверного и софтверного продукта состоит в том, что хардверный продукт переделать очень сложно. В случае со SberPortal мы продумывали каждую деталь: от размера дисплея до материала пассивного излучателя (он, кстати, необычный для таких задач – кевлар). Техническая начинка смарт-дисплея тоже получилась интересной: внутри у него мощные NPU (Neural Processing Unit, нейронный процессор) и GPU (графический процессор). NPU позволяет нам отрабатывать распознавание жестов локально на устройстве.

Технические особенности SberPortal дают нам почти бесконечные возможности для его развития. Смарт-дисплей уже сейчас можно использовать как полноценного домашнего помощника. Виртуальные ассистенты, живущие в нём, помогут оплатить мобильный или перевести маме деньги, записать вас в салон красоты или к доктору, найти смешное видео или нужный рецепт, просто поговорят с вами, а также помогут с решением многих других вопросов. Внутри SberPortal масса интересного: онлайн-кинотеатр Okko, стриминговый сервис СберЗвук, телеканалы, игры, возможность заказать продукты, а ещё — приложения, созданные нами и сторонними разработчиками (позднее мы расскажем, как создать своё!). В устройство без дисплея невозможно было бы добавить и половины этих функций и сервисов. Все производители умных гаджетов хотят сделать продукт максимально удобным, и экран, пожалуй, самый простой (при всей технической сложности) и элегантный способ этой цели достичь.

При этом SberPortal, разумеется, совместим со SberBox — ещё одним умным устройством, которое мы разработали и представили ранее. С помощью технологии SberCast можно начать смотреть телеканалы на смарт-дисплее, а продолжить — на большом экране телевизора. Для этого достаточно попросить виртуального ассистента включить ТВ на SberBox. Вообще все наши устройства, текущие и будущие, могут быть интегрированы между собой. О том, что это за устройства, мы расскажем в следующих материалах. А ещё поговорим о том, как мы создавали виртуальных ассистентов семейства Салют и какие технологии лежат в их основе.

0
114 комментариев
Написать комментарий...
Денис Пешехонов

Яндекс.Станция продаётся плохо, потому что она дорогая, а понятных народу юзкейсов у неё мало. Умный дом установлен только у гиков, без него она нужна для музыки и чтобы детям играть, но тут подходят и другие решения: домашняя аудиосистема и телефон.

Amazon в этом смысле очень верно поступил, изначально запустив маркетинг именно вокруг колонки, а мобильное приложение Alexa было глубоко вторичным. Таким образом создалось пространство для появления юзкейсов и привыкания к ним, поэтому колонка Amazon опережает все остальные по продажам. Важно наоборот УВОДИТЬ пользователя от экрана, если вы хотите продать голосовое управление. Ловить его в те моменты, когда он взаимодействовать с экраном не может или не хочет. Потому что у экрана, как вы верно заметили, всегда будет преимущество по удобству ввода-вывода.

Пока что не очень понятно, в каких ситуациях нужен Портал, и при этом я не могу воспользоваться планшетом/телефоном. Как только появляется экран, ввод переходит на него. Голосовые помощники глупые и ненадёжные, людям лень вспоминать, какую именно команду нужно произнести. Пользователи телефонов раз в год используют Google Assistant или Siri, и то для специфических кейсов. Даже водители за рулём не всегда вводят в телефон что-то голосом при наличии такой возможности, потому что зачастую значительно быстрее тупо в кнопки потыкать. Я уж не говорю о ситуациях, когда руки и глаза свободны (а Портал подразумевает это).

А ваше устройство ещё и весьма дорогое. Так что, простите, пока что это или красивая рекламная вещь или игрушка для технофилов, а не массовый бизнес-девайс для широкого рынка.

Ответить
Развернуть ветку
Банан

Откуда сведения про то, что Станция продается плохо?
Она так "плохо" продается, что пришлось поднимать цены, когда во время карантина возникли проблемы с поставками

Ответить
Развернуть ветку
Ахундов Эмиль

Цены могли вырасти по многим причинам. Не так много компаний регулируют спрос ценами - это рисковое мероприятие на дистанции. Есть шанс что ввоз комплектующий осложнился, есть вероятность того что сами комплектующие подражали и т.д.

Ответить
Развернуть ветку
Банан

Нет, тут не такой случай

Ответить
Развернуть ветку
Ахундов Эмиль

Ну я бухгалтерии не видел, могу только предполагать

Ответить
Развернуть ветку
Денис Пешехонов

Я разработчик нескольких навыков и общаюсь с другими разработчиками. Делимся статистикой по проценту пользователей, которые сидят с колонок. Их исчезающе мало по сравнению с пользователями на телефонах. Ну и другие признаки есть. После большой Станции компания запустила и активно продвигает Станцию Мини, которая значительно дешевле. Вот с ней вроде не так плохи дела. Но все равно пользователей колонок в России считайте что нет. Капля в море.

Ответить
Развернуть ветку
Банан

Возможно пользователи Станций не интересуются какими то навыками. У моей жены Станция постоянно включена, но никакими навыками за исключением управления умным домом она не пользуется. Я со Станции вообще только кино смотрю.
С другой стороны, конечно глупо спорить, что пользователей мобильного приложения на несколько порядков больше, чем пользователей всех станций вместе взятых.

Ответить
Развернуть ветку
111 комментариев
Раскрывать всегда