Сервисы
SberDevices

Выпускать новости без студии и превратить презентацию в шоу: знакомимся с виртуальной ведущей Еленой и платформой Visper

Если у вас есть SberBox или SberPortal, вы наверняка знакомы с ведущей Еленой. От привычных спикеров Елену отличает то, что она — цифровой аватар. Теперь создать такого персонажа может любой: для этого мы в SberDevices запустили платформу Visper. Рассказываем, что умеет Елена и как работает платформа.

Зародилась Елена в Лаборатории робототехники Сбера, а теперь её развиваем мы. Чтобы создать видеоролик с ней, нужен только текст: всё остальное — голос, артикуляция, мимика — генерируется автоматически. В результате получается полноценное видео — но без студий, съёмок и монтажа. Внешность виртуальной ведущей мы «позаимствовали» у реальной девушки-актрисы. Чтобы собрать все данные, необходимые для создания аватара, потребовалось около шести часов съёмок: актриса читала на камеру специально разработанные нами тексты, которые призваны максимально раскрыть особенности человеческого артикуляционного аппарата. В итоге мы получили парный датасет (набор данных) из голоса и соответствующих ему кадров видео.

Используя этот датасет, мы обучаем нейросеть по звуку генерировать соответствующее ему положение губ. Такая синхронизация звука и движений губ называется липсинк. При этом нужно учитывать, что положение губ зависит не только от текущего звука, но и от контекста — предыдущего звука и предыдущих сгенерированных кадров. Например, когда человек произносит звук «о» как восклицание, его губы будут выглядеть одним образом, а когда этот же звук он произносит в слове «новость» — совсем другим. Именно такие мелочи мы учитываем, чтобы мимика Елены выглядела естественно.

Так Елена рассказывает о себе

Новости, презентации чего угодно и обучение: что умеют цифровые аватары

Создание контента — сложный процесс, и сейчас он во многом завязан на живых спикеров: экспертов, блогеров и ведущих. Мы хотим сделать так, чтобы любой бренд мог доставлять контент аудитории без их поиска и привлечения. Виртуальная ведущая Елена стала нашим первым проектом, и теперь мы развиваем других визуальных аватаров. Их главная задача — ускорить и удешевить продакшен.

Мы начали с того, что превратили Елену, прообраз наших виртуальных персонажей, в полноценную ведущую новостей на наших устройствах. Сейчас владельцы SberBox и SberPortal могут попросить: «Салют, запусти новости» — и увидеть, как работает бесконечная лента новостей. У нас есть сайты-партнёры — медиа, которые входят в группу компаний «Рамблер». Это «Чемпионат», Лента.ру, «Афиша» и другие площадки — именно оттуда мы подгружаем новости. В будущем к нашему необычному вещанию подключатся и другие партнёры.

Медиа о девайсах Ferra.ru первым стало выпускать собственные новости с помощью Елены. Это хороший пример того, как можно использовать технологию виртуального аватара и миксовать её с традиционным контентом.

Суммарно за эти полгода мы выпустили более 20 новостных роликов с Еленой, которые собрали порядка 200 тысяч просмотров. Благодаря использованию ИИ мы экономим в среднем 3 часа на подготовку (грим, подборку гардероба, настройку света), запись и монтаж. В случае с обычным ведущим могут возникать ситуации, вызванные различными бытовыми и человеческими факторами: поиск квалифицированного специалиста, подходящего для съемки места, волнение, болезнь и так далее. Елена же «стойкий солдатик». Кроме того, мы можем использовать различные фоны и одежду ведущей, в случае необходимости моментально вносить изменения, а технологии самой Елены позволяют ей имитировать голос, повторять живую мимику человека.

Евгений Харитонов
главный редактор Ferra.ru

Новости в исполнении Елены на Ferra.ru

Новостные выпуски — не единственная «специальность» визуальных аватаров: они могут презентовать любые другие материалы, например — обучающие. Для этого мы и создали Visper — платформу виртуальных визуальных персонажей, которая позволяет создавать ролики быстро и с минимумом усилий. Одна из особенностей Visper состоит в том, что ролик можно сделать из готовой презентации, созданной до этого в самой обычной программе для создания презентаций. Другие сервисы такую возможность пока не предоставляют.

Платформа работает как конструктор. Пользователь может загрузить туда свою презентацию со слайдами и текстом на них или создать новую, а виртуальная ведущая озвучит слайды. При этом она сделает это так, как того требует задача. Например, в Visper можно выбрать понравившийся голос: от игривого и немного детского до глубокого, звучащего по-деловому. Прямо по тексту можно расставить жесты: в нужный момент виртуальный аватар поздоровается со зрителями или обратится к ним во время рассказа. Оценивать то, что получается, можно прямо в процессе, поэтому неожиданностей во время важного выступления не случится. Кстати, образ тоже можно выбрать: виртуальный персонаж может появиться перед зрителями в толстовке, а может — в костюме. Вариантов много. А ещё можно добавить в качестве фона любую картинку или видео.

Так выглядит создание ролика в Visper

Конечно, Visper можно использовать не только для создания коротких презентаций. Визуальный аватар может провести обучающий онлайн-курс для сотрудников компании или помочь с проведением урока частному преподавателю. Мы надеемся, что в сфере онлайн-образования цифровые аватары станут по-настоящему полезны. В Visper можно создавать собственные выпуски новостей — бизнес может таким образом наладить рассылку с корпоративными новостями, а администраторы Telegram-каналов и пабликов в соцсетях — разнообразить контент. Совсем скоро мы добавим новые возможности: например, разработчики из геймдев-индустрии смогут создавать на базе инструментов Visper аватаров и персонажей для игр. Вероятно, пользователи платформы найдут и другие интересные сценарии её применения. Превратить презентацию в видео можно здесь. На этапе бета-тестирования платформа будет бесплатной.

А это — пример видеоролика, созданного на основе презентации

Что дальше: как мы делаем цифровых персонажей эмоциональней

Пока виртуальным персонажам не хватает эмоциональности и экспрессии, свойственной живым людям, но мы над этим работаем. Например, раньше ролики с нашей цифровой ведущей Еленой выглядели довольно монотонно, из-за чего их трудно было воспринимать в течение продолжительного времени. Поэтому мы добавляем ей и другим персонажам жестикуляцию.

Жестикуляцию мы уже сейчас поддерживаем с помощью разметки текста по аналогии с HTML-тегами. Разметка подсказывает персонажу, когда нужно приветственно махнуть зрителям рукой или указать на контент. Мы работаем над тем, чтобы добавить опцию автоматического подбора жестов: пользователю достаточно будет загрузить текст, а потом проверить, правильные ли подсказки визуальный персонаж получил от алгоритмов.

Сложность заключается в том, что естественность и харизму персонажа тяжело оценить по количественным параметрам. Поэтому нам помогают фокус-группы: мы даём посмотреть ролики людям и собираем фидбэк.

Когда цифровые аватары станут массовыми?

Технологии создания цифровых аватаров появились на рынке не так давно, поэтому многое нам приходится придумывать самим. Кстати, о том, как развивается технология, мы рассказывали тут. Создавать цифровую ведущую, с одной стороны, сложно, с другой — очень увлекательно. Здесь есть место и для решения технических задач, и для экспериментов, и для чистого творчества. Кстати, мы всегда в поиске специалистов, которые хотят развивать направление вместе с нами — например, сейчас нам нужны специалисты по машинному обучению, бэкендеры и фронтендеры. Мы надеемся, что скоро виртуальных ведущих будет практически невозможно отличить от живых спикеров, и работаем над этим. А сейчас готовим к релизу новых персонажей, и обязательно познакомим вас с ними в ближайшем будущем.

{ "author_name": "SberDevices", "author_type": "editor", "tags": [], "comments": 12, "likes": 13, "favorites": 22, "is_advertisement": false, "subsite_label": "services", "id": 238829, "is_wide": false, "is_ugc": false, "date": "Mon, 26 Apr 2021 14:24:32 +0300", "is_special": false }
0
12 комментариев
Популярные
По порядку
Написать комментарий...
11

- Привет, Елена!
- Где карту открывали, туда и идите!

Ответить
7

Оригинально

Ответить
2

Сделайте пожалуйста, чтобы она не просто шевелила губами, а открывала рот при произношении определенных звуков. А то такое ощущение, что у неё спазм челюсти. Выглядит не естественно. 
Понимаю, что это не так легко, но обратите на это внимание пожалуйста.)

Ответить
2

Алексей, уже сейчас движение рта визуальных персонажей согласовано с голосом, но мы, конечно, продолжим улучшать качество липсинка. Вы правильно заметили, что это непростая (и очень интересная) задача 🙂

Ответить
0

хочешь сказать, что возможна реалистичная анимация? да ну, чушь какая...
https://www.youtube.com/watch?v=3fOFr7_Yn2U

Ответить
1

Теперь заставь этот рендер проговаривать любой текст и желательно чтоб не на пк с тремя видеокартами

Ответить
1

Внешность виртуальной ведущей мы «позаимствовали» у реальной девушки-актрисы

Блин, ребят, у вас такие возможности, а вы делаете аватару в виде __обычной девушки__. Даже не некоего абстрактного собирательного образа....
Даже японцы 10летней давности лучше вас
https://youtu.be/sMzxnkMyW9A

ну и о голосе, это походу какое-то умышленное убийство интонаций "железом", по типу как на радио при выходе в эфир "наш корреспондент по телефону" наваливают фильтр с эхо и дребезжанием, хотя минуту назад он же зачитывал вводную без этих спецэффектов

Ответить
1

Елена - бревно :)
А почему у неё рот кривой-то?

Ответить
1

Ужасные видео с Еленой, никаких эмоций , пошатывается. Новости от ferra невозможно слушать, звучит как Майкрософт компьютер войс...  имхо, лучше бы смотрелся виртуальный аватар типа анимоджи.  В сфере онлайн образования должен рассказывать живой человек или просто гзк, но не ЭТО.  А вот рэп читать она смогла бы! 

Ответить
1

Кошмар. Похоже на позврослевшую Полину Буторину - помните, была в фильмах Курицына такая девчонка, игравшая еще хуже Мистера Пельменной*

Ответить
0

На Семенович похожа, но вот млечные железы подкачали...

Ответить

Комментарии

null