Выпускать новости без студии и превратить презентацию в шоу: знакомимся с виртуальной ведущей Еленой и платформой Visper

Если у вас есть SberBox или SberPortal, вы наверняка знакомы с ведущей Еленой. От привычных спикеров Елену отличает то, что она — цифровой аватар. Теперь создать такого персонажа может любой: для этого мы в SberDevices запустили платформу Visper. Рассказываем, что умеет Елена и как работает платформа.

Зародилась Елена в Лаборатории робототехники Сбера, а теперь её развиваем мы. Чтобы создать видеоролик с ней, нужен только текст: всё остальное — голос, артикуляция, мимика — генерируется автоматически. В результате получается полноценное видео — но без студий, съёмок и монтажа. Внешность виртуальной ведущей мы «позаимствовали» у реальной девушки-актрисы. Чтобы собрать все данные, необходимые для создания аватара, потребовалось около шести часов съёмок: актриса читала на камеру специально разработанные нами тексты, которые призваны максимально раскрыть особенности человеческого артикуляционного аппарата. В итоге мы получили парный датасет (набор данных) из голоса и соответствующих ему кадров видео.

Используя этот датасет, мы обучаем нейросеть по звуку генерировать соответствующее ему положение губ. Такая синхронизация звука и движений губ называется липсинк. При этом нужно учитывать, что положение губ зависит не только от текущего звука, но и от контекста — предыдущего звука и предыдущих сгенерированных кадров. Например, когда человек произносит звук «о» как восклицание, его губы будут выглядеть одним образом, а когда этот же звук он произносит в слове «новость» — совсем другим. Именно такие мелочи мы учитываем, чтобы мимика Елены выглядела естественно.

Так Елена рассказывает о себе

Новости, презентации чего угодно и обучение: что умеют цифровые аватары

Создание контента — сложный процесс, и сейчас он во многом завязан на живых спикеров: экспертов, блогеров и ведущих. Мы хотим сделать так, чтобы любой бренд мог доставлять контент аудитории без их поиска и привлечения. Виртуальная ведущая Елена стала нашим первым проектом, и теперь мы развиваем других визуальных аватаров. Их главная задача — ускорить и удешевить продакшен.

Мы начали с того, что превратили Елену, прообраз наших виртуальных персонажей, в полноценную ведущую новостей на наших устройствах. Сейчас владельцы SberBox и SberPortal могут попросить: «Салют, запусти новости» — и увидеть, как работает бесконечная лента новостей. У нас есть сайты-партнёры — медиа, которые входят в группу компаний «Рамблер». Это «Чемпионат», Лента.ру, «Афиша» и другие площадки — именно оттуда мы подгружаем новости. В будущем к нашему необычному вещанию подключатся и другие партнёры.

Медиа о девайсах Ferra.ru первым стало выпускать собственные новости с помощью Елены. Это хороший пример того, как можно использовать технологию виртуального аватара и миксовать её с традиционным контентом.

Суммарно за эти полгода мы выпустили более 20 новостных роликов с Еленой, которые собрали порядка 200 тысяч просмотров. Благодаря использованию ИИ мы экономим в среднем 3 часа на подготовку (грим, подборку гардероба, настройку света), запись и монтаж. В случае с обычным ведущим могут возникать ситуации, вызванные различными бытовыми и человеческими факторами: поиск квалифицированного специалиста, подходящего для съемки места, волнение, болезнь и так далее. Елена же «стойкий солдатик». Кроме того, мы можем использовать различные фоны и одежду ведущей, в случае необходимости моментально вносить изменения, а технологии самой Елены позволяют ей имитировать голос, повторять живую мимику человека.

Евгений Харитонов, главный редактор Ferra.ru

Новости в исполнении Елены на Ferra.ru

Новостные выпуски — не единственная «специальность» визуальных аватаров: они могут презентовать любые другие материалы, например — обучающие. Для этого мы и создали Visper — платформу виртуальных визуальных персонажей, которая позволяет создавать ролики быстро и с минимумом усилий. Одна из особенностей Visper состоит в том, что ролик можно сделать из готовой презентации, созданной до этого в самой обычной программе для создания презентаций. Другие сервисы такую возможность пока не предоставляют.

Платформа работает как конструктор. Пользователь может загрузить туда свою презентацию со слайдами и текстом на них или создать новую, а виртуальная ведущая озвучит слайды. При этом она сделает это так, как того требует задача. Например, в Visper можно выбрать понравившийся голос: от игривого и немного детского до глубокого, звучащего по-деловому. Прямо по тексту можно расставить жесты: в нужный момент виртуальный аватар поздоровается со зрителями или обратится к ним во время рассказа. Оценивать то, что получается, можно прямо в процессе, поэтому неожиданностей во время важного выступления не случится. Кстати, образ тоже можно выбрать: виртуальный персонаж может появиться перед зрителями в толстовке, а может — в костюме. Вариантов много. А ещё можно добавить в качестве фона любую картинку или видео.

Так выглядит создание ролика в Visper

Конечно, Visper можно использовать не только для создания коротких презентаций. Визуальный аватар может провести обучающий онлайн-курс для сотрудников компании или помочь с проведением урока частному преподавателю. Мы надеемся, что в сфере онлайн-образования цифровые аватары станут по-настоящему полезны. В Visper можно создавать собственные выпуски новостей — бизнес может таким образом наладить рассылку с корпоративными новостями, а администраторы Telegram-каналов и пабликов в соцсетях — разнообразить контент. Совсем скоро мы добавим новые возможности: например, разработчики из геймдев-индустрии смогут создавать на базе инструментов Visper аватаров и персонажей для игр. Вероятно, пользователи платформы найдут и другие интересные сценарии её применения. Превратить презентацию в видео можно здесь. На этапе бета-тестирования платформа будет бесплатной.

А это — пример видеоролика, созданного на основе презентации

Что дальше: как мы делаем цифровых персонажей эмоциональней

Пока виртуальным персонажам не хватает эмоциональности и экспрессии, свойственной живым людям, но мы над этим работаем. Например, раньше ролики с нашей цифровой ведущей Еленой выглядели довольно монотонно, из-за чего их трудно было воспринимать в течение продолжительного времени. Поэтому мы добавляем ей и другим персонажам жестикуляцию.

Жестикуляцию мы уже сейчас поддерживаем с помощью разметки текста по аналогии с HTML-тегами. Разметка подсказывает персонажу, когда нужно приветственно махнуть зрителям рукой или указать на контент. Мы работаем над тем, чтобы добавить опцию автоматического подбора жестов: пользователю достаточно будет загрузить текст, а потом проверить, правильные ли подсказки визуальный персонаж получил от алгоритмов.

Сложность заключается в том, что естественность и харизму персонажа тяжело оценить по количественным параметрам. Поэтому нам помогают фокус-группы: мы даём посмотреть ролики людям и собираем фидбэк.

Когда цифровые аватары станут массовыми?

Технологии создания цифровых аватаров появились на рынке не так давно, поэтому многое нам приходится придумывать самим. Кстати, о том, как развивается технология, мы рассказывали тут. Создавать цифровую ведущую, с одной стороны, сложно, с другой — очень увлекательно. Здесь есть место и для решения технических задач, и для экспериментов, и для чистого творчества. Кстати, мы всегда в поиске специалистов, которые хотят развивать направление вместе с нами — например, сейчас нам нужны специалисты по машинному обучению, бэкендеры и фронтендеры. Мы надеемся, что скоро виртуальных ведущих будет практически невозможно отличить от живых спикеров, и работаем над этим. А сейчас готовим к релизу новых персонажей, и обязательно познакомим вас с ними в ближайшем будущем.

0
12 комментариев
Написать комментарий...
Андрей Владимиров

- Привет, Елена!
- Где карту открывали, туда и идите!

Ответить
Развернуть ветку
S.Z

Оригинально

Ответить
Развернуть ветку
Алексей из LOADING.express

Сделайте пожалуйста, чтобы она не просто шевелила губами, а открывала рот при произношении определенных звуков. А то такое ощущение, что у неё спазм челюсти. Выглядит не естественно. 
Понимаю, что это не так легко, но обратите на это внимание пожалуйста.)

Ответить
Развернуть ветку
SberDevices
Автор

Алексей, уже сейчас движение рта визуальных персонажей согласовано с голосом, но мы, конечно, продолжим улучшать качество липсинка. Вы правильно заметили, что это непростая (и очень интересная) задача 🙂

Ответить
Развернуть ветку
Khabib96

хочешь сказать, что возможна реалистичная анимация? да ну, чушь какая...
https://www.youtube.com/watch?v=3fOFr7_Yn2U

Ответить
Развернуть ветку
S.Z

Теперь заставь этот рендер проговаривать любой текст и желательно чтоб не на пк с тремя видеокартами

Ответить
Развернуть ветку
Khabib96
Внешность виртуальной ведущей мы «позаимствовали» у реальной девушки-актрисы

Блин, ребят, у вас такие возможности, а вы делаете аватару в виде __обычной девушки__. Даже не некоего абстрактного собирательного образа....
Даже японцы 10летней давности лучше вас
https://youtu.be/sMzxnkMyW9A

ну и о голосе, это походу какое-то умышленное убийство интонаций "железом", по типу как на радио при выходе в эфир "наш корреспондент по телефону" наваливают фильтр с эхо и дребезжанием, хотя минуту назад он же зачитывал вводную без этих спецэффектов

Ответить
Развернуть ветку
A V

Елена - бревно :)
А почему у неё рот кривой-то?

Ответить
Развернуть ветку
Владислав Мальцев

Порвали...

Ответить
Развернуть ветку
Ilya Lapenkov

Ужасные видео с Еленой, никаких эмоций , пошатывается. Новости от ferra невозможно слушать, звучит как Майкрософт компьютер войс...  имхо, лучше бы смотрелся виртуальный аватар типа анимоджи.  В сфере онлайн образования должен рассказывать живой человек или просто гзк, но не ЭТО.  А вот рэп читать она смогла бы! 

Ответить
Развернуть ветку
Владислав Мальцев

Кошмар. Похоже на позврослевшую Полину Буторину - помните, была в фильмах Курицына такая девчонка, игравшая еще хуже Мистера Пельменной*

Ответить
Развернуть ветку
Вася Михеев

На Семенович похожа, но вот млечные железы подкачали...

Ответить
Развернуть ветку
9 комментариев
Раскрывать всегда