Дубликаты реальности: эволюция дипфейков и руководство по созданию фотореалистичных изображений и видео

Технология дипфейков вызывает общественный резонанс уже несколько лет, но значительное улучшение алгоритмов ИИ в прошлом году подняло процесс создания и использования дипфейков на новый уровень.

Мы исследуем концепцию дипфейков и делимся информацией о том, как можно создавать их бесплатно, следуя простому руководству.

Дипфейк - это технология, которая использует алгоритмы искусственного интеллекта для “оживления” и визуализации фотореалистичных изображений людей. Для создания видео с дипфейком, алгоритмы нейронных сетей анализируют большое количество фотографий, определяя характерные черты поведения, мимики, жестов главного героя и т.д.

Сам термин deepfake образован путем объединения двух концепций: “глубокое обучение” (deep learning) и “фальшивка” (fake).

Применение дипфейков не ограничивается только созданием видео. С помощью голосовых дипфейков мошенники и аферисты пытаются обмануть людей для получения денег.

В контексте маркетинга, дипфейки могут быть использованы для создания креативов с персонажами, которые под видом знаменитостей рассказывают о товарах, услугах или предложениях.

Прототип технологии дипфейков появился еще в 1997 году: программа Video Rewrite позволяла корректировать мимику человека и подставлять любые голосовые аудиодорожки. Пример работы программы Video Rewrite:

В 2014 году появилась нашумевшая реклама шоколада Dove с оживленным образом известной британской модели и актрисы Одри Хепберн. В ролике оживленная при помощи компьютерных технологий «актриса» путешествует по Италии, знакомится с обаятельным молодым человеком и уносится с ним в закат на кабриолете. Общая атмосфера видео стилизована под 50-е годы прошлого века с отсылками к известным фильмам, в которых снималась Хепберн — «Римские каникулы», «Забавная мордашка» и т. д.

Дубликаты реальности: эволюция дипфейков и руководство по созданию фотореалистичных изображений и видео

Тогда же появилась GAN — одна из первых ИИ-моделей, с помощью которой создавали первые сложные дипфейки. GAN — это аббревиатура, переводится как генеративно-состязательная нейросеть. Технически работу модели поддерживает генератор случайных реалистичных изображений и дискриминатор, который отделяет фейковые материалы от подлинных, то есть выступает в качестве внутреннего «эксперта» при выборе окончательного варианта креатива. Первоначально в GAN нельзя было ввести собственный промпт для генерации картинок: ИИ сам дорисовывал случайные изображения на основе заложенных в память примеров. Поэтому алгоритмы могли визуализировать только небольшие изображения лиц в плохом качестве. Первые сгенерированные с помощью ИИ дипфейки в приемлемом качестве появились в 2017 году. Самый громкий кейс использования улучшенной технологии связан с пользователем под ником Deepfakes, который опубликовал на Reddit несколько интимных роликов с участием фальшивых обнаженных звезд. В роли жертв тогда побывали Скарлетт Йоханссон, Эмма Уотсон, Мейси Уильямс, Галь Гадот.

При создании порно Deepfakes использовал алгоритмы машинного обучения TensorFlow, которые Google бесплатно предоставлял ученым, исследователям и всем интересующимся новейшими технологиями. Уже тогда эксперты отмечали характерные для таких дипфейков недостатки: при том, что фигуры людей кажутся правдоподобными, пристальный взгляд отмечал некорректные мельчайшие элементы и движения. После резонансного случая с Deepfakes новой технологией заинтересовались серьезные люди с деньгами. Словно грибы после дождя начали появляться десятки софтверных компаний, которые предлагали свои решения для генерации видео, аудио и даже полноценных сюжетных сцен. Заметно выросло число подписчиков на YouTube-каналах, где выкладывали дипфейк-ролики с известными личностями, например, Shamook и Ctrl Shift Face. Появляются первые полностью виртуальные персонажи, созданные с помощью ИИ и живущие в Instagram* — девушки Лил Микела, Шуду Грэм, Имма. В это же время появляются и первые сервисы, которые позволяли сделать несложный дипфейк обычному человеку, например, приложение ReFace. Джим Кэрри в «роли» Джека Торренса в одном из известнейших эпизодов «Сияния» Стэнли Кубрика 1980 года:

Среди заметных случаев, связанных с дипфейками, были и чисто политические ситуации. Например, видео с “пьяной” Нэнси Пелоси, Дональдом Трампом, выступающим против экологических инициатив, и Бараком Обамой, который якобы назвал Трампа “полным идиотом”. Это лишь небольшая часть шумихи, которую создали нейросети еще до бума ИИ.

В 2023 году, на волне революционного прорыва в развитии искусственного интеллекта, интернет был заполнен дипфейками, созданными на новом уровне качества. В мае 2023 года Reuters, ссылаясь на ИИ-компанию DeepMedia, сообщил, что по сравнению с 2022 годом количество видеофейков увеличилось в 3 раза, а аудиофейков - в 8 раз. Дипфейки используются во всех сферах человеческой деятельности, где важны изображения, видео или звук. Они применяются как в благих целях, так и во вред - преступники были одними из первых, кто решил использовать новую технологию в своих целях.

Согласно отчету AI Index Report 2023, количество этических нарушений, связанных с использованием дипфейков, за последние 10 лет увеличилось в 26 раз. При этом исследование компании Onfido показывает, что количество мошенничеств, связанных с этой технологией, только в 2023 году выросло в 30 раз по сравнению с годом ранее. Интересно, что в 80,3% случаев мошенники использовали довольно простые схемы, что на 7,4% чаще, чем в год ранее.

Одним из негативных аспектов использования дипфейков можно назвать их применение в порноиндустрии. Исследование, проведенное компанией Deeptrace в 2019 году, показало, что 96% всех фейковых материалов в сети относятся к “взрослому контенту”. В 2023 году объем дипфейк-порнографии увеличился на 464%. Специалисты компании Home Security Heroes определили, что в сеть было выложено более 280 000 порнороликов, созданных с помощью ИИ-технологий. Масштабность и популярность такого контента подтверждает количество просмотров, которое превысило 4,2 млрд. Риски дипфейк-порнографии, сгенерированной ИИ, связаны с кибербуллингом, шантажом и вымогательством. Ни взрослые, ни подростки не застрахованы от этого: в одном из громких недавних скандалов была замешана 14-летняя ученица средней школы Вестфилд в Нью-Джерси. Несмотря на негативный имидж, который связан с использованием ИИ-дипфейков, нельзя утверждать, что это абсолютное зло. Ведь дипфейки также приносят людям пользу. Они часто способствуют распространению контента, который способствует преобразованию общества. Один из ярких примеров связан с историей школьника Хоакина Оливера, убитого в перестрелке. С согласия его родителей общественные деятели внедрили образ юноши в эмоциональное социальное видео, которое призывает к контролю за ношением оружия в США. Ролик с Хоакином Оливером:

Дипфейки также находят полезное применение, включая сферу искусства. Например, в американском музее Дали во Флориде, образ всемирно известного художника, сгенерированный ИИ, встречает посетителей на входе, рассказывая об искусстве и творчестве великого испанца. В этом проекте речь для нейро-живописца была “создана” искусственным интеллектом на основе множества интервью. Актер, озвучивающий дипфейк, воспроизводит уникальный акцент Дали, в котором смешиваются английский, французский и испанский языки. Для создания цифровой копии художника потребовалось 6000 фотографий, 1000 часов машинного обучения и 145 видео с актером схожих пропорций.

Алгоритмы ИИ в синтезированном аудиоголосе приложения Seeing AI помогают слепым и слабовидящим людям ориентироваться в пространстве. Исследователи-инженеры Ивэй Чжэн и Кейт Глазко используют дипфейки для помощи людям с афантазией, тем, кто лишен воображения и неспособен на создание абстрактных образов. С помощью специальной программы ученые воспроизводят различные жизненные обстоятельства, которые помогают заранее отрепетировать поведение в стрессовой жизненной ситуации и снизить уровень тревоги.

Дипфейки также помогают людям учиться, осваивать новые навыки и профессии - сейчас существует множество сервисов, которые можно адаптировать под любую учебную или семинарскую задачу. Международное исследование компании Wyzowl пришло к выводу, что 68% сотрудников предприятий предпочитают учебные видеоролики статьям, инфографике, презентациям и книгам. Инструменты ИИ для создания дипфейков позволяют быстро и без лишних затрат создать любое обучающее видео в любом бизнесе или отрасли экономики.

Обычно, когда требуется заменить лицо персонажа на другое с помощью ИИ для продвижения товара или услуги, манимейкеры обращаются к дипфейкам. Замена лиц становится популярной при создании креативов для знакомств с элементами запрещенного контента. В интернете можно найти множество сервисов, предлагающих создание дипфейков. Однако бесплатные версии обычно сильно ограничены в функционале, и не все готовы платить даже небольшую сумму за генерацию 1-2 видео. Но создать бесплатный дипфейк самостоятельно не так сложно, если следовать нижеуказанной инструкции. Для замены лица в видео не нужно долго обучать генеративную модель, перебирая сотни фотографий с различной мимикой. Достаточно одной фотографии среднего качества и доступа к компьютеру с GPU Nvidia, поскольку создание дипфейка на ПК с CPU происходит значительно медленнее. Также потребуется доступ к Google Colab - бесплатному сервису, который позволяет запускать и использовать различные скрипты/приложения на серверах компании Google. Бесплатное использование Google Colab доступно в течение 6-12 часов, после чего необходимо сделать перерыв на 24 часа, или же можно сразу купить подписку.

1. После входа в систему Google, перейдите на страницу предварительно настроенного скрипта нейронной сети. Используйте команду «Файл>Сохранить копию на диск» для переноса всех файлов в свое облачное хранилище. Если перенос прошел успешно, нейронная сеть откроется на вкладке вашего личного веб-адреса.

2. Запустите скрипт для проверки доступности графического процессора. Это необходимо, поскольку расчеты для создания видео на центральном процессоре могут занять слишком много времени. Успешная проверка подтверждается появлением таблицы с данными. Если таблица не появляется, попробуйте запустить процесс в Google Colab, используя другой аккаунт Google.

3. Далее вам потребуется клонировать репозиторий нейронной сети с помощью скрипта №2. Сразу после его запуска активируйте установку основных зависимостей, нажав кнопку под номером 3. В процессе установки скриптов система может выдавать ошибки, но они не влияют на работу алгоритма ИИ. Обратите внимание только на окно с ошибкой, содержащее Restart Runtime - в этом случае вам придется перезапустить установку скрипта №3.

4. Запустите скрипт для загрузки фотографии с лицом, которое будет использоваться в видео. Затем запустите скрипт №5 и выберите конечное видео для дипфейка. При выборе видео учтите, что в кадре должен быть только один актер. Видео с несколькими людьми допустимы, если лица второстепенных персонажей каким-то образом скрыты.

5. Поставьте галочку и запустите скрипт процесса замены лица. Затем ожидайте окончания обработки файла: рендеринг пятиминутного ролика может занимать от 30 до 40 минут.

6. После появления надписи Status: swap successful, вы можете скачать готовое видео. Для этого найдите в левой колонке опцию face_changed_video.mp4 и скачайте файл, кликнув правой кнопкой мыши.

1. Перейдите на страницу предварительно настроенного скрипта и сохраните его в своем облачном хранилище. Если все прошло успешно, система перенаправит вас на личную веб-страницу скрипта, которую следует добавить в закладки браузера.

2. Для удобства можно перевести иероглифы в Chrome на русский язык, щелкнув правой кнопкой мыши и выбрав соответствующую команду. Затем последовательно запустите первые три пункта скрипта. Завершение процесса подтверждается появлением зеленого символа рядом с номером - для работы алгоритма GPU не требуется. Возможные ошибки при выполнении третьего скрипта можно игнорировать, они не влияют на создание дипфейка.

3. Загрузите в нейросеть фотографии для замены лица. В левой колонке нажмите на кнопку для отображения дерева файлов и загрузите необходимые фотографии для замены в папку roop_colab, щелкнув правой кнопкой мыши.

4. Замените строки на имена загруженных файлов. В строке «источник» указывается фото с лицом, которое будет вставлено в фото, а в строке «цель» - фотография, куда это лицо будет вставлено. Запустите скрипт.

5. Выберите желаемые настройки алгоритма. Можно использовать те же параметры, что и на представленном ниже скриншоте.

6. Процесс создания дипфейка обычно занимает несколько минут. Если все прошло успешно, в конце вывода консоли скрипта появится надпись [ROOP.CORE] Processing to image succeed, а в левой колонке появится файл Rezultat.png. Его можно скачать, щелкнув правой кнопкой мыши.

При работе с этим скриптом алгоритм по умолчанию размывает изображения с откровенными деталями. Эту проблему можно обойти, скачав файл predictor.py и изменив параметр MAX_PROBABILITY=0.85 на MAX_PROBABILITY=1 в любом текстовом редакторе. После этого файл нужно загрузить обратно.

Дубликаты реальности: эволюция дипфейков и руководство по созданию фотореалистичных изображений и видео

Что такое дипфейк?

Когда зародились первые?

Применение дипфейков: от политики до порноиндустрии

Негативные и положительные стороны дипфейков

Положительное использование дипфейков: от искусства до образования

Как бесплатно создать дипфейк в видео

Инструкция по созданию бесплатного дипфейк-видео:

Как бесплатно создать дипфейк без Photoshop?

Устранение цензуры при создании фото-дипфейка: