Цифровые аватары: от идеи до готового ролика
Большинство контента мы создаём в текстовом формате, но не все любят читать лонгриды. Чтобы вовлечь тех, кто предпочитает видео, мы озвучили и «оживили» статьи при помощи цифровых аватаров. Виртуальный эксперт выглядит, как копия реального специалиста, повторяет его мимику, голос и манеры. Рассказываем, как создают ИИ-аватара и с какими сложностями мы столкнулись в процессе работы.
Идея создания ИИ-аватаров
Искусственный интеллект давно помогает нашей компании в разных аспектах: от поиска мошенников и оценки рисков до генерации изображений для постов в блоге и соцсетях.
Мы решили не останавливаться на одних только изображениях, и задумались, как создать видео на основе популярных статей нашего блога.
Мы нашли креативное агентство, которое разрабатывало проект по созданию цифровых аватаров: нам предложили создать виртуальную копию реального эксперта, которая сможет озвучить любой текст на основе предварительно записанного аудио- и видеоматериала.
Эта идея показалась перспективной, и мы принялись за работу.
ИИ-аватар:
- Создаётся на основе отснятого материала
- Можно создавать видео без присутствия реального спикера
- Повторяет внешность спикера
- Повторяет мимику и движения (самостоятельно не генерирует новые)
- Имитирует манеру речи и голос оригинального спикера
- Может озвучивать тексты голосом спикера на десятках языков
Подготовка к созданию ИИ-аватара
Прежде, чем приступать к съёмкам и работе с нейросетью, нам важно было определиться с несколькими ключевыми деталями.
Выбор контента
Первым делом нужно было решить – о чём будут рассказывать цифровые аватары.
Выбор спикеров
Все спикеры – это наши коллеги, сотрудники компании «Абсолют страхование». Важным критерием при выборе сотрудников было умение работать на камеру.
Стеснение и зажатость в кадре – это плохо для прототипа: человек должен харизматично говорить и уверенно держаться перед камерой, ведь ИИ-аватар копирует манеру и поведение человека.
В итоге мы сформировали команду из 10 экспертов, которые не стеснялись камеры и были готовы участвовать в проекте.
Юридические аспекты
Процесс создания ИИ-аватара – это в первую очередь работа с биометрическими данными: ИИ-аватар полностью копирует внешность, голос и манеру речи человека, и мошенники многое бы отдали, чтобы заполучить такие данные. Чтобы этого не произошло, нужно было учесть множество юридических тонкостей, и эта работа требовала гораздо более серьёзного подхода, чем стандартная обработка персональных данных.
Поэтому параллельно с творческим процессом шла масштабная и скрупулёзная работа с документами. Нужно было оформить:
- Согласие каждого эксперта на участие в проекте, аудио- и видеозапись, дальнейшее использование изображения для генерации видео.
- Специальное разрешение в используемой нейросети. Его запрашивает сама программа. Каждый спикер должен проговорить текст согласия на камеру, иначе программа откажется генерировать его ИИ-аватар. Этот этап нужен для защиты от мошенников.
- Дополнительное соглашение с компанией-разработчиком. Документ говорит о том, что эта организация берёт на себя ответственность за то, что образы наших сотрудников не будут использоваться нигде, кроме нашего проекта.
Все правовые аспекты использования ИИ-аватаров пришлось проработать с нуля, ведь мы были первопроходцами – никто из наших коллег-страховщиков такие проекты не реализовывал. Наши юристы изучили российское законодательство в этой области и создали документ, который защищает личные данные и интересы всех участников процесса.
Оцифровка спикеров
Следующий этап — это съёмка прототипов.
Нейросеть, в которой создавали ИИ-аватары, копировала не только внешность, но и одежду человека. Чтобы было, из чего выбрать, каждого эксперта мы записали дважды – в разных образах.
Ещё одна особенность этой нейросети в том, что она не умеет создавать 3D-модель: виртуальная копия в видео будет показана с того ракурса, с которого снимали прототип. Поэтому, чтобы можно было генерировать динамичное видео с цифровым экспертом, нужно снять реального человека с нужных ракурсов.
Съёмка одного человека длилась от 2 до 5 минут. Чтобы команда подрядчиков получила качественный материал, эксперту нужно было:
- непрерывно говорить на камеру
- смотреть только в объектив
- не делать резких движений руками и головой
- контролировать мимику
- не использовать слова-паразиты и междометия «Э-э», «А-а», «М-м» и т.д.
Всех десятерых экспертов мы успели отснять за один съёмочный день. На этом их физическое участие в проекте закончилось – дальше нужны были только отснятые видео для генерации ИИ-аватаров.
Если бы мы полноценно снимали, как эксперт читает статью на камеру, – это заняло бы гораздо больше времени.
Генерация ИИ-аватара
Это самая интересная часть работы: специалист загружает видео с экспертом в нейросеть. Искусственный интеллект анализирует исходный материла и создаёт цифровой аватар. Это ещё не готовый ролик, а только виртуальный образ, который можно использовать для создания видео.
После этого – работа со звуком: специалист загружает в программу промт – текст статьи, которую должен озвучить цифровой аватар. На выходе получается аудиоверсия статьи, озвученная голосом нашего эксперта.
На этом этапе могут возникнуть проблемы с ударениями, неправильным склонением чисел или произношением каких-то слов. Чтобы внести правки нужно корректировать промт до тех пор, пока не получится качественная аудиодорожка.
Следующий этап – генерация видео с нашим цифровым экспертом. Здесь тоже могут возникать ошибки – например, аватар может усиленно жестикулировать. Или если на исходном видео человек поправил волосы, аватар может начать делать это неестественно часто.
Главный минус – подобные моменты нельзя поправить на этапе генерации, поэтому очень важно следить за качеством записи исходного видео.
Пост-продакшн
Финальный этап – это классический монтаж. Работа нейросети закончена, и тут подключается режиссёр монтажа, который создаёт видео: чередует планы, оформляет плашки и титры.
Готовые ролики
Увидеть результат и познакомиться с нашими цифровыми экспертами можно на площадках:
Также все видео опубликованы внутри некоторых статей в нашем блоге.