Выпускать новости без студии и превратить презентацию в шоу: знакомимся с виртуальной ведущей Еленой и платформой Visper
Если у вас есть SberBox или SberPortal, вы наверняка знакомы с ведущей Еленой. От привычных спикеров Елену отличает то, что она — цифровой аватар. Теперь создать такого персонажа может любой: для этого мы в SberDevices запустили платформу Visper. Рассказываем, что умеет Елена и как работает платформа.
Зародилась Елена в Лаборатории робототехники Сбера, а теперь её развиваем мы. Чтобы создать видеоролик с ней, нужен только текст: всё остальное — голос, артикуляция, мимика — генерируется автоматически. В результате получается полноценное видео — но без студий, съёмок и монтажа. Внешность виртуальной ведущей мы «позаимствовали» у реальной девушки-актрисы. Чтобы собрать все данные, необходимые для создания аватара, потребовалось около шести часов съёмок: актриса читала на камеру специально разработанные нами тексты, которые призваны максимально раскрыть особенности человеческого артикуляционного аппарата. В итоге мы получили парный датасет (набор данных) из голоса и соответствующих ему кадров видео.
Используя этот датасет, мы обучаем нейросеть по звуку генерировать соответствующее ему положение губ. Такая синхронизация звука и движений губ называется липсинк. При этом нужно учитывать, что положение губ зависит не только от текущего звука, но и от контекста — предыдущего звука и предыдущих сгенерированных кадров. Например, когда человек произносит звук «о» как восклицание, его губы будут выглядеть одним образом, а когда этот же звук он произносит в слове «новость» — совсем другим. Именно такие мелочи мы учитываем, чтобы мимика Елены выглядела естественно.
Новости, презентации чего угодно и обучение: что умеют цифровые аватары
Создание контента — сложный процесс, и сейчас он во многом завязан на живых спикеров: экспертов, блогеров и ведущих. Мы хотим сделать так, чтобы любой бренд мог доставлять контент аудитории без их поиска и привлечения. Виртуальная ведущая Елена стала нашим первым проектом, и теперь мы развиваем других визуальных аватаров. Их главная задача — ускорить и удешевить продакшен.
Мы начали с того, что превратили Елену, прообраз наших виртуальных персонажей, в полноценную ведущую новостей на наших устройствах. Сейчас владельцы SberBox и SberPortal могут попросить: «Салют, запусти новости» — и увидеть, как работает бесконечная лента новостей. У нас есть сайты-партнёры — медиа, которые входят в группу компаний «Рамблер». Это «Чемпионат», Лента.ру, «Афиша» и другие площадки — именно оттуда мы подгружаем новости. В будущем к нашему необычному вещанию подключатся и другие партнёры.
Медиа о девайсах Ferra.ru первым стало выпускать собственные новости с помощью Елены. Это хороший пример того, как можно использовать технологию виртуального аватара и миксовать её с традиционным контентом.
Новостные выпуски — не единственная «специальность» визуальных аватаров: они могут презентовать любые другие материалы, например — обучающие. Для этого мы и создали Visper — платформу виртуальных визуальных персонажей, которая позволяет создавать ролики быстро и с минимумом усилий. Одна из особенностей Visper состоит в том, что ролик можно сделать из готовой презентации, созданной до этого в самой обычной программе для создания презентаций. Другие сервисы такую возможность пока не предоставляют.
Платформа работает как конструктор. Пользователь может загрузить туда свою презентацию со слайдами и текстом на них или создать новую, а виртуальная ведущая озвучит слайды. При этом она сделает это так, как того требует задача. Например, в Visper можно выбрать понравившийся голос: от игривого и немного детского до глубокого, звучащего по-деловому. Прямо по тексту можно расставить жесты: в нужный момент виртуальный аватар поздоровается со зрителями или обратится к ним во время рассказа. Оценивать то, что получается, можно прямо в процессе, поэтому неожиданностей во время важного выступления не случится. Кстати, образ тоже можно выбрать: виртуальный персонаж может появиться перед зрителями в толстовке, а может — в костюме. Вариантов много. А ещё можно добавить в качестве фона любую картинку или видео.
Конечно, Visper можно использовать не только для создания коротких презентаций. Визуальный аватар может провести обучающий онлайн-курс для сотрудников компании или помочь с проведением урока частному преподавателю. Мы надеемся, что в сфере онлайн-образования цифровые аватары станут по-настоящему полезны. В Visper можно создавать собственные выпуски новостей — бизнес может таким образом наладить рассылку с корпоративными новостями, а администраторы Telegram-каналов и пабликов в соцсетях — разнообразить контент. Совсем скоро мы добавим новые возможности: например, разработчики из геймдев-индустрии смогут создавать на базе инструментов Visper аватаров и персонажей для игр. Вероятно, пользователи платформы найдут и другие интересные сценарии её применения. Превратить презентацию в видео можно здесь. На этапе бета-тестирования платформа будет бесплатной.
Что дальше: как мы делаем цифровых персонажей эмоциональней
Пока виртуальным персонажам не хватает эмоциональности и экспрессии, свойственной живым людям, но мы над этим работаем. Например, раньше ролики с нашей цифровой ведущей Еленой выглядели довольно монотонно, из-за чего их трудно было воспринимать в течение продолжительного времени. Поэтому мы добавляем ей и другим персонажам жестикуляцию.
Жестикуляцию мы уже сейчас поддерживаем с помощью разметки текста по аналогии с HTML-тегами. Разметка подсказывает персонажу, когда нужно приветственно махнуть зрителям рукой или указать на контент. Мы работаем над тем, чтобы добавить опцию автоматического подбора жестов: пользователю достаточно будет загрузить текст, а потом проверить, правильные ли подсказки визуальный персонаж получил от алгоритмов.
Сложность заключается в том, что естественность и харизму персонажа тяжело оценить по количественным параметрам. Поэтому нам помогают фокус-группы: мы даём посмотреть ролики людям и собираем фидбэк.
Когда цифровые аватары станут массовыми?
Технологии создания цифровых аватаров появились на рынке не так давно, поэтому многое нам приходится придумывать самим. Кстати, о том, как развивается технология, мы рассказывали тут. Создавать цифровую ведущую, с одной стороны, сложно, с другой — очень увлекательно. Здесь есть место и для решения технических задач, и для экспериментов, и для чистого творчества. Кстати, мы всегда в поиске специалистов, которые хотят развивать направление вместе с нами — например, сейчас нам нужны специалисты по машинному обучению, бэкендеры и фронтендеры. Мы надеемся, что скоро виртуальных ведущих будет практически невозможно отличить от живых спикеров, и работаем над этим. А сейчас готовим к релизу новых персонажей, и обязательно познакомим вас с ними в ближайшем будущем.
- Привет, Елена!
- Где карту открывали, туда и идите!
Оригинально
Сделайте пожалуйста, чтобы она не просто шевелила губами, а открывала рот при произношении определенных звуков. А то такое ощущение, что у неё спазм челюсти. Выглядит не естественно.
Понимаю, что это не так легко, но обратите на это внимание пожалуйста.)
Алексей, уже сейчас движение рта визуальных персонажей согласовано с голосом, но мы, конечно, продолжим улучшать качество липсинка. Вы правильно заметили, что это непростая (и очень интересная) задача 🙂
хочешь сказать, что возможна реалистичная анимация? да ну, чушь какая...
https://www.youtube.com/watch?v=3fOFr7_Yn2U
Теперь заставь этот рендер проговаривать любой текст и желательно чтоб не на пк с тремя видеокартами
Блин, ребят, у вас такие возможности, а вы делаете аватару в виде __обычной девушки__. Даже не некоего абстрактного собирательного образа....
Даже японцы 10летней давности лучше вас
https://youtu.be/sMzxnkMyW9A
ну и о голосе, это походу какое-то умышленное убийство интонаций "железом", по типу как на радио при выходе в эфир "наш корреспондент по телефону" наваливают фильтр с эхо и дребезжанием, хотя минуту назад он же зачитывал вводную без этих спецэффектов
Елена - бревно :)
А почему у неё рот кривой-то?
Порвали...
Ужасные видео с Еленой, никаких эмоций , пошатывается. Новости от ferra невозможно слушать, звучит как Майкрософт компьютер войс... имхо, лучше бы смотрелся виртуальный аватар типа анимоджи. В сфере онлайн образования должен рассказывать живой человек или просто гзк, но не ЭТО. А вот рэп читать она смогла бы!
Кошмар. Похоже на позврослевшую Полину Буторину - помните, была в фильмах Курицына такая девчонка, игравшая еще хуже Мистера Пельменной*
На Семенович похожа, но вот млечные железы подкачали...