Цифровые аватары: от идеи до готового ролика

Большинство контента мы создаём в текстовом формате, но не все любят читать лонгриды. Чтобы вовлечь тех, кто предпочитает видео, мы озвучили и «оживили» статьи при помощи цифровых аватаров. Виртуальный эксперт выглядит, как копия реального специалиста, повторяет его мимику, голос и манеры. Рассказываем, как создают ИИ-аватара и с какими сложностями мы столкнулись в процессе работы.

Искусственный интеллект давно помогает нашей компании в разных аспектах: от поиска мошенников и оценки рисков до генерации изображений для постов в блоге и соцсетях.

Мы решили не останавливаться на одних только изображениях, и задумались, как создать видео на основе популярных статей нашего блога.

Мы нашли креативное агентство, которое разрабатывало проект по созданию цифровых аватаров: нам предложили создать виртуальную копию реального эксперта, которая сможет озвучить любой текст на основе предварительно записанного аудио- и видеоматериала.

Эта идея показалась перспективной, и мы принялись за работу.

ИИ-аватар:

Создаётся на основе отснятого материала
Можно создавать видео без присутствия реального спикера
Повторяет внешность спикера
Повторяет мимику и движения (самостоятельно не генерирует новые)
Имитирует манеру речи и голос оригинального спикера
Может озвучивать тексты голосом спикера на десятках языков

Прежде, чем приступать к съёмкам и работе с нейросетью, нам важно было определиться с несколькими ключевыми деталями.

Первым делом нужно было решить – о чём будут рассказывать цифровые аватары.

Все спикеры – это наши коллеги, сотрудники компании «Абсолют страхование». Важным критерием при выборе сотрудников было умение работать на камеру.

Стеснение и зажатость в кадре – это плохо для прототипа: человек должен харизматично говорить и уверенно держаться перед камерой, ведь ИИ-аватар копирует манеру и поведение человека.

В итоге мы сформировали команду из 10 экспертов, которые не стеснялись камеры и были готовы участвовать в проекте.

Процесс создания ИИ-аватара – это в первую очередь работа с биометрическими данными: ИИ-аватар полностью копирует внешность, голос и манеру речи человека, и мошенники многое бы отдали, чтобы заполучить такие данные. Чтобы этого не произошло, нужно было учесть множество юридических тонкостей, и эта работа требовала гораздо более серьёзного подхода, чем стандартная обработка персональных данных.

Поэтому параллельно с творческим процессом шла масштабная и скрупулёзная работа с документами. Нужно было оформить:

Согласие каждого эксперта на участие в проекте, аудио- и видеозапись, дальнейшее использование изображения для генерации видео.
Специальное разрешение в используемой нейросети. Его запрашивает сама программа. Каждый спикер должен проговорить текст согласия на камеру, иначе программа откажется генерировать его ИИ-аватар. Этот этап нужен для защиты от мошенников.
Дополнительное соглашение с компанией-разработчиком. Документ говорит о том, что эта организация берёт на себя ответственность за то, что образы наших сотрудников не будут использоваться нигде, кроме нашего проекта.

Все правовые аспекты использования ИИ-аватаров пришлось проработать с нуля, ведь мы были первопроходцами – никто из наших коллег-страховщиков такие проекты не реализовывал. Наши юристы изучили российское законодательство в этой области и создали документ, который защищает личные данные и интересы всех участников процесса.

Следующий этап — это съёмка прототипов.

Нейросеть, в которой создавали ИИ-аватары, копировала не только внешность, но и одежду человека. Чтобы было, из чего выбрать, каждого эксперта мы записали дважды – в разных образах.

Ещё одна особенность этой нейросети в том, что она не умеет создавать 3D-модель: виртуальная копия в видео будет показана с того ракурса, с которого снимали прототип. Поэтому, чтобы можно было генерировать динамичное видео с цифровым экспертом, нужно снять реального человека с нужных ракурсов.

Съёмка одного человека длилась от 2 до 5 минут. Чтобы команда подрядчиков получила качественный материал, эксперту нужно было:

непрерывно говорить на камеру
смотреть только в объектив
не делать резких движений руками и головой
контролировать мимику
не использовать слова-паразиты и междометия «Э-э», «А-а», «М-м» и т.д.

Всех десятерых экспертов мы успели отснять за один съёмочный день. На этом их физическое участие в проекте закончилось – дальше нужны были только отснятые видео для генерации ИИ-аватаров.

Если бы мы полноценно снимали, как эксперт читает статью на камеру, – это заняло бы гораздо больше времени.

Это самая интересная часть работы: специалист загружает видео с экспертом в нейросеть. Искусственный интеллект анализирует исходный материла и создаёт цифровой аватар. Это ещё не готовый ролик, а только виртуальный образ, который можно использовать для создания видео.

После этого – работа со звуком: специалист загружает в программу промт – текст статьи, которую должен озвучить цифровой аватар. На выходе получается аудиоверсия статьи, озвученная голосом нашего эксперта.

На этом этапе могут возникнуть проблемы с ударениями, неправильным склонением чисел или произношением каких-то слов. Чтобы внести правки нужно корректировать промт до тех пор, пока не получится качественная аудиодорожка.

Следующий этап – генерация видео с нашим цифровым экспертом. Здесь тоже могут возникать ошибки – например, аватар может усиленно жестикулировать. Или если на исходном видео человек поправил волосы, аватар может начать делать это неестественно часто.

Главный минус – подобные моменты нельзя поправить на этапе генерации, поэтому очень важно следить за качеством записи исходного видео.

Финальный этап – это классический монтаж. Работа нейросети закончена, и тут подключается режиссёр монтажа, который создаёт видео: чередует планы, оформляет плашки и титры.

Увидеть результат и познакомиться с нашими цифровыми экспертами можно на площадках:

Также все видео опубликованы внутри некоторых статей в нашем блоге.

Цифровые аватары: от идеи до готового ролика

Идея создания ИИ-аватаров

Подготовка к созданию ИИ-аватара

Выбор контента

Выбор спикеров

Юридические аспекты

Оцифровка спикеров

Генерация ИИ-аватара

Пост-продакшн

Готовые ролики