Как мы придумали SberPortal и почему будущее за гаджетами с экранами

На осенней Сбер Конф, главной презентации уходящего года, Сбер показал сразу несколько умных устройств. Их сделали мы — команда SberDevices. О том, кто и как придумывает, создаёт и улучшает такие устройства, мы будем рассказывать в этом блоге. Начнём с рассказа про SberPortal — смарт-дисплей с голосовым управлением, мощной умной камерой, акустикой от Harman Kardon и другими фичами.

Почему мы сделали смарт-дисплей, а не очередную умную колонку

На старте у нас было несколько задач. Мы решили создать абсолютно новое для российского рынка устройство, которое смогло бы не только закрыть большую часть потребностей пользователя, но и удивить его. И мы задумались о том, как это будет выглядеть.

Рынок умных устройств растёт, количество предложений от крупных компаний и стартапов — тоже. Например, на российском рынке уже есть несколько достойных умных колонок. При этом визуальный канал восприятия информации для большинства людей всё ещё самый важный. Обычная умная колонка, в которой живёт виртуальный помощник, может слышать пользователя, отвечать ему и быть полезной — включать музыку, рассказывать о погоде за окном. Но для многих из нас отсутствие визуальной составляющей остаётся проблемой. Кому-то некомфортно не видеть плейлист, когда проигрывается музыка, а кто-то был бы рад заказать продукты к ужину с помощью голосовых команд, но не хочет этого делать, не оценив их внешний вид. Покупка товаров с помощью голосового управления — сложный кейс, и далеко не все компании смогли предложить удобный способ это делать.

И таких сценариев много. Поэтому мы решили поселить виртуальных ассистентов в умное устройство с экраном — смарт-дисплей. Это вполне логичный шаг — следующая ступень эволюции гаджетов, тренд, который хорошо отражает растущая популярность таких устройств на развитых рынках. Функциональность SberPortal за счёт наличия дисплея гораздо шире, чем у обычной умной колонки. Например, с его помощью можно заказывать товары и видеть при этом корзину, смотреть кино, играть в игры и общаться по видеосвязи. Да и традиционные «колоночные» сценарии стали удобнее.

Привычные функции там тоже есть. Конечно, наши виртуальные ассистенты (а их три — Сбер, Джой и Афина) могут рассказать о погоде, включить музыку или поставить таймер. И если умную колонку нужно подключать к телевизору, чтобы что-то увидеть, то смарт-дисплей — самостоятельное устройство.

Почему SberPortal именно такой

Мы хотели создать устройство, которое объединило бы в себе множество возможностей для удобной жизни и облегчило бы быт. Какие это возможности? Прежде всего — ассистенты семейства Салют, которые незаменимы и на кухне, и в спальне, и в детской. Дальше — проигрывание музыки. Но не компромиссное, а по-настоящему впечатляющее. Связь — чтобы оставаться в контакте с близкими и друзьями. А главное — управление. Оно должно быть удобным в разных ситуациях: когда вокруг шумно, если заняты руки или хочется полного контроля через тач-интерфейс. Поэтому SberPortal такой нетривиальный внешне — со всех сторон разный и при этом красивый и удобный.

SberPortal — сложное техническое устройство, и при этом полностью кастомное, то есть разработанное в SberDevices с нуля. Отдельные решения мы тоже разрабатывали с нуля: например, широкоугольную 4K AI-камеру. Во всех других устройствах этой категории таких мощных камер нет, но мы сознательно сделали её такой. Камеры, встроенные в смартфоны и другие устройства, не рассчитаны на продолжительную работу — пластиковые линзы мобильных камер нагреваются и временно деформируются, а это влияет на качество изображения. Нам хотелось создать девайс, который было бы удобно использовать для продолжительных видеозвонков, поэтому в камере совмещены пластиковые и стеклянные линзы и она может работать долго, если кому-то вдруг захочется общаться с друзьями по видео нон-стоп. Благодаря нейросетям мы реализовали технологию смарт-фокуса — во время видеозвонков камера может фокусироваться на пользователе, даже если он двигается. Если вы решили заняться, например, приготовлением еды во время видеозвонка, собеседник вас не потеряет из виду. Ещё камера может распознавать лицо владельца и его жесты.

Управление жестами — новинка для рынка, к которой пользователям предстоит привыкнуть. В некоторых устройствах такая функция есть уже сейчас, но обычно речь идёт об одном жесте, который запускает или останавливает какие-то процессы. У нас жестов несколько — например, жестом V («виктория») можно активировать виртуального ассистента. Показав камере открытую ладонь, пользователь может приостановить или продолжить воспроизведение контента. Это удобно, если вам, допустим, нужно срочно отвлечься на телефонный разговор. Или представьте: у вас дома проходит шумная вечеринка и играет песня, которая вам нравится, — необязательно прерывать беседу с друзьями и делать музыку потише, можно поднять вверх большой палец, а SberPortal распознает лайк и поймет, что трек нужно добавить в плейлист (показывать дизлайки также можно — их камера тоже распознает).

Ещё одно решение — матрица из шести микрофонов, которая способна определять источник речи, фокусироваться на нём и лучше «слышать». Матрицу мы разработали совместно с Fraunhofer IIS (Институтом интегральных схем общества Фраунгофера). Микрофоны очень чувствительны. Даже если пользователь обратится к Сберу, Джой или Афине с большого расстояния, виртуальный помощник среагирует и заговорит с ним. Технология вычитания собственного звука позволяет ассистенту услышать вас даже во время воспроизведения музыки или фильма, и не нужно повышать голос. А если вы используете больше одного SberPortal, можно в каждом из них выбрать своего ассистента и обращаться к ним по имени: «Джой, найди музыку для вечеринки» или «Афина, поставь таймер». Это называется мультиспоттер. Благодаря ему виртуальные помощники не помешают друг другу.

Кстати, акустическую систему для SberPortal разработала команда из Harman Kardon, а настраивать звук помогали японские инженеры. В основе системы — кастомный дизайн камеры с 70-миллиметровым широкополосным и 84-миллиметровым пассивным излучателями. Всё это позволяет выдавать глубокий бас, чистые верхние частоты и рассеивающийся на 360° звук — мы постарались сделать так, чтобы прослушивание музыки стало отдельным интересным опытом. А ещё в SberPortal установлено адаптированное под устройство приложение сервиса СберЗвук. Оно поддерживает формат воспроизведения треков, которые записаны без потери качества (такие композиции отмечены значком HQ). При создании таких треков используется кодек FLAC. Он не удаляет акустически значимой информации из аудиопотока и не приводит к ухудшению качества звучания музыкальных композиций.

Мы дали пользователям возможность управлять устройством несколькими способами — сделали тачскрин, голосовое управление и управление жестами. Это делает SberPortal универсальным устройством, с которым удобно взаимодействовать в разных ситуациях. Если хочется детально в чём-то разобраться, например, выбрать продукты к ужину, можно использовать тачскрин, если нужно запустить видео, не вставая с дивана, — голосовое управление, а жестом без лишних слов остановить воспроизведение музыки.

При этом и «зрение», и «слух» устройства можно отключить. Созданный именно для этого «колпачок» надевается на камеру и полностью её закрывает. Микрофоны можно отключить механически, нажав специальную кнопку. Так мы даём пользователям возможность обеспечить себе полную приватность.

Дизайн устройства разработан с нуля: нам хотелось, чтобы девайс не просто выполнял какие-то функции, но и украшал пространство. Мы сделали смарт-дисплей таким, чтобы он вписался в современный интерьер, и предоставили пользователям выбор, создав устройство в чёрном и белом цветах.

Как может (и будет) развиваться устройство с дисплеем

Разница в разработке хардверного и софтверного продукта состоит в том, что хардверный продукт переделать очень сложно. В случае со SberPortal мы продумывали каждую деталь: от размера дисплея до материала пассивного излучателя (он, кстати, необычный для таких задач – кевлар). Техническая начинка смарт-дисплея тоже получилась интересной: внутри у него мощные NPU (Neural Processing Unit, нейронный процессор) и GPU (графический процессор). NPU позволяет нам отрабатывать распознавание жестов локально на устройстве.

Технические особенности SberPortal дают нам почти бесконечные возможности для его развития. Смарт-дисплей уже сейчас можно использовать как полноценного домашнего помощника. Виртуальные ассистенты, живущие в нём, помогут оплатить мобильный или перевести маме деньги, записать вас в салон красоты или к доктору, найти смешное видео или нужный рецепт, просто поговорят с вами, а также помогут с решением многих других вопросов. Внутри SberPortal масса интересного: онлайн-кинотеатр Okko, стриминговый сервис СберЗвук, телеканалы, игры, возможность заказать продукты, а ещё — приложения, созданные нами и сторонними разработчиками (позднее мы расскажем, как создать своё!). В устройство без дисплея невозможно было бы добавить и половины этих функций и сервисов. Все производители умных гаджетов хотят сделать продукт максимально удобным, и экран, пожалуй, самый простой (при всей технической сложности) и элегантный способ этой цели достичь.

При этом SberPortal, разумеется, совместим со SberBox — ещё одним умным устройством, которое мы разработали и представили ранее. С помощью технологии SberCast можно начать смотреть телеканалы на смарт-дисплее, а продолжить — на большом экране телевизора. Для этого достаточно попросить виртуального ассистента включить ТВ на SberBox. Вообще все наши устройства, текущие и будущие, могут быть интегрированы между собой. О том, что это за устройства, мы расскажем в следующих материалах. А ещё поговорим о том, как мы создавали виртуальных ассистентов семейства Салют и какие технологии лежат в их основе.

0
114 комментариев
Написать комментарий...
Александра Базуткина

Это как флагманский смартфон, только в руках держать не надо. Интересно)

Ответить
Развернуть ветку
Ol Ka

Кому интересно? 🤭

Ответить
Развернуть ветку
Full Name

вот и увидим

Ответить
Развернуть ветку
111 комментариев
Раскрывать всегда