Pantomime — дипфейк-стикеры в один клик

Мы сделали сервис для анимации фото на нейронках, который научит вашего пса гримасам как у Обамы.

Главная страница сервиса. Слева примеры, справа грузить своё изображение. Всё просто.
Главная страница сервиса. Слева примеры, справа грузить своё изображение. Всё просто.

Как всё начиналось

Наша команда 8 лет экспериментировала с компьютерным зрением и производством контента. В апреле 2019 мы стали пристально вглядываться в набирающий обороты тренд на synthetic media. На ютубе появлялось всё больше роликов, в которых политикам заменяли лица на неожиданных персонажей, в сми поднималась волна негодования по поводу сокрушительной силы новых технологий. А на реддите, как грибы, плодились порно-треды со знаменитостями в главных ролях фильмов для взрослых.

Уже ставший культовым ролик, в котором Джордан Пил «вкладывает в уста» Обамы fake-спитч

Нам было интересно найти практическое применение этим развлекательным технологиям, полезное бизнесу и пользователям. Так появился Dowell — проект по реалистичной генерации лиц на видео. Мы сфокусировались на решении проблем рекламного и кинопродакшнов: бесшовные замены лиц каскадеров и дублеров, сокращение съемочных смен с участием селебрити, омоложение актеров без компьютерной графики, оживление умерших героев без эксгумации и много других креативных историй.

Через несколько кейсов нам стало понятно, что есть несколько барьеров, препятствующих масштабированию. Во-первых, у профессионального рынка крайне высокие требования к качеству «картинки» — продюсеры привыкли к безупречному изображению, а непредсказуемые нейронные сети не отличаются постоянством в продакшне. Во-вторых, каждый такой кейс — уникален, что порождает проблемы № 2 и № 3: сложное управление, с которым маленькая команда буксует, и длинные переговоры, согласования и правки, которые не добавляют стартапу плюсов в карму.

При этом к нам стало поступать всё больше обращений, связанных с персонализацией контента: бренды и сервисы хотят поместить пользователя внутрь вселенной, которую они создают, дать почувствовать себя героем любимого шоу, например. Но наши высокореалистичные, но очень медленные нейронки, которые мы делали для Голливуда, тут явно не подходили.

Тогда мы сместили фокус на более гибкие архитектуры и начали проектировать решение для широкой аудитории пользователей.

Проект Dowell для науч-поп блогера Яна Топлес: реалистичная генерация головы на видео. Такую технологию можно продавать Голивуду, но не маркетологам, которым нужна генерация «здесь и сейчас»

Идея сервиса Pantomime

Персонализация — необъятная тема, которой занимаются сегодня миллионы компаний: от Snapchat с функцией анимированных персонажей Cameo до российского FaceApp, позволяющего совершить гендерную трансформацию в один клик. Мы сосредоточились на сегменте персонализации общения.

Текст, который тысячелетиями был универсальной формой передачи информации, стремительно уступает различным визуальным сущностям. Даже самые стойкие любители высокого слога не заметили, как гифки вытеснили голосовые (хвала!) и смайлы. А потом и саму речь: вместо тысячи слов мы стали коммуницировать анимированными изображениями.

Недавняя сделка Facebook по приобретению сервиса Giphy за баснословные $400M только подтверждает, как плотно обосновались в наших мессенжерах движущие картинки, и в ближайшее время они точно не собираются оттуда уходить. Мы решили поддержать тренд на быстрое и ироничное общение и придумали Pantomime — сервис, который за считанные секунды превратит ваш портрет в говорящую гифку. За основу мы взяли оупенсорсное решение, которое нам предстояло драматически ускорить и адаптировать с учетом комфортного пользовательского опыта.

Автоматическая анимация: немного теории

Традиционный и всем известный способ анимировать изображение — компьютерная графика. Она требует специализированных навыков, и обычно для работы с объектом CG-художнику необходима 3D-модель этого объекта. Большинство существующих подходов, автоматизирующих анимацию, основываются на глубоком обучении генеративно-состязательных нейросетей (GAN) и вариационных автоэнкодеров (VAE). Данные модели часто базируются на предобученных модулях для поиска ключевых точек объектов на изображении. По этим точкам и происходит генерация. Главная проблема подхода — данные модули способны распознавать только объекты, на которых они были обучены. То есть при попытке показать алгоритму новое изображение мы можем нарваться на непредсказуемый результат.

Таким образом, нам предстояло решить задачу синтеза произвольных объектов в кадре. В конце февраля решение предложили ученые из университете Тренто. Их статья First Order Motion Model for Image Animation содержала описание модели, которая способна оживлять картинки без предобучения на желаемом объекте (лице, в нашем случае). Авторы уже обучили свой алгоритм на большом массиве видеороликов, сгруппировав объекты по категориям.

Мы работали с той частью алгоритма, которая отвечает за оптимизацию работы модели под нагрузкой: для того, чтоб большое количество пользователей одномоментно смогли получить свои гифки и воспользоваться ими по прямому назначению, мы протестировали несколько вариантов сервировки модели. Сегодня алгоритм по-прежнему не идеально справляется с большим наплывом пользователей, и мы непрерывно стараемся улучшить работу сервиса на уровне UX.

Забудьте про гифки. Всем мим!

Да-да, мы все знаем про приложения, которые позволяют нашим волосам развиваться на ветру, волнам — закручиваться в барашки, а солнышку — описывать круг с ладошки за горизонт. Они делают наши инстаграм-истории более стильными (или нет), но не затрагивают главное — эмоции и чувства. Для MVP нашего Pantomime мы выбрали 20 любимых всеми гифок (от злобного Гринча до Not Bad Meme) и обучили нейросеть переносить мимику с них на любые фото: ваши селфи, портреты друзей, произведения искусства или даже пикчи с домашними животными.

Такую мимику мы перенесли в наш сервис. Ваша фотография может расплыться в такой же улыбке. Но выглядеть это будет, конечно, дружелюбнее.

Вы можете превратить любую фотографию в анимированный стикер за пару секунд или без слов описать свое актуальное состояние для подписчиков в соцсетях. Кстати, сервис работает не только с фотографиями людей, но и с фото животных, картинами и рисунками. Мы назвали наши анимированные фотографии «мимами», и судя по первым 5000 пользователей, которые воспользовались сервисом за первые 12 часов после запуска, оно войдет в обиход.

Pantomime — дипфейк-стикеры в один клик

Что дальше?

Сейчас мы дорабатываем более быстрое решение для анимации лиц, которое позволит решить проблему с ожиданием генерации мима: в скором времени пользователей, оставивших почту на сайте и тех, кто присоединился к нам в телеграм-канале Pantomime, ждет приглашение в бета-версию приложения.

Наше face-swap направление тоже продолжает развиваться, и уже этой осенью мы объявим о релизе нового проекта, который поможет всем желающим почувствовать себя кинозвездами. А пока подписывайтесь на наш канал на Youtube, где мы начали публиковать злободневные видео, которые заставят вас улыбнуться.

Всем мим!

6262
37 комментариев

Такс, вам полгода на раскачку, потом вас покупает инстаграм, договорились?

6

Котиков не определяет! всё сервис не нужон...

6

Так есть приложение на телефон. Более того там можно собственные эмоции создавать водя пальцем по экрану. Muglife если я не ошибаюсь. 

3

Работает очень быстро и без интернета 😆

3

Я бы вашем месте сделал эти примеры кликабельными, чтобы в один клик можно было попробовать, как ваша технология работает. Не всегда хочется искать картинку в интернете.

2

Они не кликабельные, но анимированные на самом сервисе: можно даже без клика увидеть, как работает наша технология. 

1