Что нужно знать продакшну, задумывая проект с дипфейком

Мы — лаборатория Deepcake, команда инженеров, которая с помощью нейронных сетей преображает визуальный контент. В 2020 году мы приняли участие в нескольких громких проектах с генерацией лица на видео, и наш продюсер Леонид Иванов вместе с инженером Александром Кувшиновым поделились своим опытом (временами горьким) в этой статье.

Ниже несколько уроков, которые помогут продюсерам и режиссерам принять решение о применимости технологий face-swapping’а для их кино- или рекламных проектов.

В прошлом году дипфейки стали выходить из серой зоны порнопранков и ютуб-юмора, способствую решению насущных задач: как создавать видео с теми, кого нельзя привезти на съемки (салют, локдаун), менять возраст персонажа за несколько часов на десятки лет (расскажите об этом создателям Mandalorian) или оживлять героев из прошлого (Disney грозиться оживить вообще всех).

Работа CG-команды Джоржда Лукаса и нейронка с открытым кодом в умелых руках: у кого получилось лучше? <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.youtube.com%2Fchannel%2FUCZXbWcv7fSZFTAZV4beckyw&postId=200976" rel="nofollow noreferrer noopener" target="_blank">Shamook</a>
Работа CG-команды Джоржда Лукаса и нейронка с открытым кодом в умелых руках: у кого получилось лучше? Shamook

Брифинг команды

Мы начинаем работу с честного инструктажа по поводу ограничений технологии. В первую очередь, объясняем команде специфику нашей работы с данными и предупреждаем о том, что никакой магии не произойдет: нейронные сети не занимаются вырезанием и вклеиванием нужного лица на видео; генерация — процесс специфичный и тонкий.

По сути нейронные сети имитируют лицо, а не создают цифрового близнеца. Они изучают внешний вид «донора» (того, чей образ хотим воссоздать) и «дублера» (того, кого используем в качестве физической основы для генерации), а также условия среды — позу головы, мимику и эмоции, цвет лица, свет и тени и т.д.

После изучения информации о том, как выглядят оба героя, алгоритм старается воспроизвести внешность «актера», сохраняя мимику и другие характеристики видео с «дублером», с некоторыми следами (мы называем их «артефактами») образа самого «дублера». И основа качественной генерации — внимательно собранные данные (датасеты) с «донором» и «дублером».

На 2:18 ведущий рассказывает, как Deepcake генерировал голову Джона Траволты вместо его собственной

Датасет всему голова

Достаточный датасет — 4-6 тысяч лиц. Важными свойствами данных в наших кейсах является их качество (разрешение), разнообразие поз и эмоций, а также однородность с точки зрения цвета и света. Лучший способ собрать данные — это провести съемку с «донором» и «дублером», организовав нужные условия по свету, зафиксировав необходимые ракурсы в нужном разрешении.

Часто мы имеем дело со вторичными данными — кадрами кинохроники (мы работали с советской картиной 1974 года — это было непросто), которые могут грешить зернистостью, бедностью (недостатком эмоций/ракурсов) и иметь сложную колористику.

Работа с такими данными требует особого внимание: мы применяем как инструменты нейросетевого улучшения (AI video enhancing), так и кропотливый ручной труд по выбору самых удачных кадров. Детекция лиц на видео происходит машинным способом.

Кастинг и подготовка к съемкам

Чтобы сгенерированное лицо выглядело достоверно, лучше выбрать дублера с похожим строением черепа. Если пропорции головы будут отличаться, то нейронные сети постараются искусственно вписывать лицо в слишком широкую или узкую рамку. Мы обращаем внимание на скулы, надбровные дуги, подбородок и высоту лба. Для отличного результата мы консультируем кастинг-менеджеров на этапе подбора дублеров.

При генерации лица мы не переносим волосы и прическу. Поэтому для большего сходства необходимо воссоздать прическу и расположение челки в соответствии с задумкой режиссера. Волосы становятся частой проблемой в итоговых материалах, потому что им уделили мало внимания на съемках.

Генерация головы требует также внимательной работы с декорациями: мы просим использовать нейтральный фон или хромакей для сглаживания перехода между сгенерированной шевелюрой и бэком.

Съемки: контролируем ракурсы и динамику

На съемках нам важно контролировать повороты головы дублера. Если он отвернется слишком сильно, нейронные сети не смогут задетектировать лицо, и кадр будет забракован. Когда мы обсуждали эту проблему на первых проектах, заказчики транслировали свою обеспокоенность: это урезает сюжет и возможности, и накладывает ограничения на поведение актера в кадре.

Наше присутствие на съемочной площадке дает возможность избегать сложностей при дальнейшей генерации лица. Мы влияем на все этапы: свет, повороты головы, мимику. В духе 2020 года на нескольких проектах мы удаленно подключались к плэйбэку и присутствовали на съемках, в режиме реального времени, комментируя процесс для съемочной группы.

Лицо Жоржа Милославского сгенерировано нейросетями, разработанными в лаборатории Deepcake (не входит в группу Сбера, если что)

Еще несколько важных параметров

Ключевое ограничение в работе рекламного продакшна — сложность генерации лица на крупных планах. Если лицо занимает больше ⅙ кадра, то потребуется больше времени для детализации (морщины, направление взгляда, мимика). Но при этом, если лицо слишком маленькое, то алгоритм сложнее распознает его контур. Для ускорения производства мы рекомендуем работать преимущественно со средними планами.

В зависимости от бюджета и возможностей клиента мы используем оборудование, которое больше подходит под проект. Оно влияет на скорость генерации и итоговое качество. Видео в высоком разрешении мы обучаем за 7 дней (до 1 минуты контента). В наших проектах в конце 2020 года, используя несколько самых мощных графических процессоров, мы параллельно обучали 20 сцен, разбитых по однородным цветовым группам для повышения однородности результата и во избежание эффекта лица-маски.

Сейчас наша рисерч-команда разрабатывает новый генератор, который позволит драматически ускорить процесс гиперреалистичного переноса до нескольких минут. Наши нейросети написаны на базе популярного фреймоворка PyTorch, что обеспечивает их адаптивность.

Наши ограничения относительно крупности плана лица дублера
Наши ограничения относительно крупности плана лица дублера

При работе с нейронными сетями мы уделяем большое внимание последующей цветокоррекции. Алгоритмы умеют самостоятельно «подкрашивать» обучаемые материалы, для того чтобы сгенерированное лицо могло выглядеть однородно. Но при ручной цветокоррекции (агрессивная контрастность, перетянутая экспозиция) поверх имитированного лица на кадрах начинают появляться артефакты.

Иногда это просто чуть приподнятая бровь, которая незаметна взгляду. А порой можно увидеть, что две половины лица не сходятся между собой. В течение долгих экспериментов мы проверили несколько гипотез, которые помогают решить проблему. Теперь интегрируем эти решения на этапе съемок.

Дипфейки как инновация уже создали несколько ярких прецедентов на коммерческом рынке, и пришло время перейти их использовать регулярно и по назначению. Эти кейсы показывают профессионалам возможность организации дистанционных съемок и дают шанс управлять временем. Для селебрити открываются новые горизонты монетизации — цифровое присутствие в нескольких проектах одновременно без необходимости физического участия.

При этом сметы на дипфейк-проекты уже не кусаются, а скорость реализации в разы превосходит аналогичные решения от CG, не уступая (и даже превосходя) их в реализме. В итоге все сложности, которые пока возникают на этапах производства дипфейков, отбиваются возможностями использования, полем для творчества и рациональным расходом ресурса.

2222
29 комментариев

Комментарий недоступен

4

Радует, что статья понравилась. 
Просто мы долго не рассказывали про компанию. А тут написали про неё в своих личных аккаунтах, и полился трафик и от друзей, и от знакомых. А после и не от знакомых.
Если вопрос про клиентов серьезный, то нет не накручиваем.

3

Спасибо, что так круто все рассказали! Это очень интересная сфера, за которой стоит будущее!

3

Мария, благодарим за добрые слова. Если будут вопросы по теме — обращайтесь.

2

А сколько вообще это может стоить?

2

Всегда удивлял факт, что громкие проекты почему-то не оплачивают Тильду на год, чтобы не иметь в футере "PLATFORM LABEL". 

Если на год купить - это же дешевле.

UPD. Хотя может быть и купили, но забыли в настройках убрать... 

UUPD. Хотя покупка на год - это один из ключевых моментов, и покупают его чтобы именно убрать "PLATFORM LABEL".
 

2

А мы себя и не называли громким проектом: мы маленькая, недавно запустившая бизнес команда, которая очень много работает и не успевает привести в порядок сайт.