Всем привет!

На связи София, комьюнити-менеджер Лаборатории «Искусство и искусственный интеллект» Европейского университета в Санкт-Петербурге.

22 марта прошел день рождения университета. В честь этого события, вместе с научным руководителем Лаборатории Олегом Лашмановым, мы создали видео-комикс с историей университета. В этом выпуске я расскажу, с каким инструментом на базе ИИ мы работали для создания изображений.

Для создания комикса мы хотели работать только с open-source моделями, поэтому выбрали инструмент Invoke. Invoke — это генеративная платформа на основе ИИ для создания визуального контента. Она помогает художникам, профессионалам и любителям создавать визуальные медиа с использованием новых технологий на базе ИИ. Платформа безопасная и простая в развертывании.

Интерфейс платформы Invoke
Интерфейс платформы Invoke

Invoke использует несколько основных базовых моделей генеративного ИИ, включая SDXL и Stable Diffusion 1.5. У пользователей также есть возможность интегрировать и использовать свои собственные модели. По пользовательским правилам запрещено использовать модели, копирующие образы людей или стиль ныне живущих художников без их согласия.

Инструкцию по развертыванию вы можете найти здесь.

А пока пройдемся по пользовательским особенностям.

Invoke позволяет создавать изображения из текстовых или визуальных промтов, а также собственных эскизов. Всё это в рамках одного холста.

Платформа предлагает базовые модели с открытой лицензией, то есть создаваемый вами контент принадлежит только вам и вы можете хранить, использовать и изменять модель по своему усмотрению.

В инструменте доступны следующие функции:

  • Генерация изображений по принципам «текст в изображение» (“text to image”) и «изображение в изображение» (“image to image”);
  • Редактирование изображения в режиме одного холста;
  • Редактор воркфлоу для настройки рабочих процессов;
  • Менеджер моделей для загрузки и настройки собственных моделей;
  • Управление очередью для нескольких итераций.

Для наглядности работы с платформой покажу, как мы работали над комиксом с помощью Invoke.

Перед нами стояла задача — сделать визуально правдоподобные (и немного комичные) иллюстрации из событий жизни университета. Иногда источником служил только текст, иногда архивные фотографии.

Например, нам нужно было создать сцену разговора в кабинете:

Пишем текстовый промт для создания сцены. В “Negative Prompt” можно указать, чего в изображении точно не должно быть. В “Positive Prompt” я ввела: “Discussion between two men at the table. Government cabinet. Black and white comics style.”

Спустя несколько итераций получилось такое изображение:

Все версии сгенерированных изображений сохраняются на панели справа. Можно добавлять изображение в избранное, тогда оно закрепится в самом начале. Также можно группировать их по тематическим доскам. При нажатии на изображение правой кнопкой мыши появляется панель с дополнительными функциями. В том числе можно воспользоваться промтом выбранной картинки.

Вид правой части панели
Вид правой части панели

Так как главными персонажами комикса были реальные люди, нам было важно создавать изображения, близкие к реальной внешности героев. И в Invoke это возможно — с помощью нейросети ControlNet. ControlNet — это нейронная сеть, которая управляет генерацией изображений в Stable Diffusion, добавляя дополнительные условия. Отправной точкой в создании изображений является текстовый промт. Сеть использует текстовые подсказки как одно из условий для создания изображений.

В дополнение к текстовому промту ControlNet добавляет еще одно условие. Сеть принимает дополнительное входное изображение и обнаруживает его контуры с помощью детектора Canny. Изображение, содержащее обнаруженные контуры, затем сохраняется как контрольная карта. Оно передается в модель ControlNet в дополнение к текстовому промту.

Принцип работы ControlNet. Источник: https://stable-diffusion-art.com/controlnet/#What_is_ControlNet 
Принцип работы ControlNet. Источник: https://stable-diffusion-art.com/controlnet/#What_is_ControlNet 

Возвращаемся к истории университета. 10 августа 2018 происходит долгожданное событие: Европейскому университету возвращают лицензию. Учебный процесс возобновляется. Для этой сцены мы решаем взять за основу популярный мем с Робертом Дауни-младшим (aka Железный человек).

Сначала мы генерируем изображение в стиле черно-белого комикса, пропуская его через ControlNet в режиме “Text to image”. В положительном промте не забываем прописать условие: “Black and white comics style”.

По сценарию событие происходит спустя месяц после назначения ректором Вадима Волкова. Задача — повторить мем с лицом В. В. Волкова. Решение снова находим в ControlNet.

Переходим в режим “Unified Canvas”, переносим с правой панели сгенерированное изображение. На панели над изображением выбираем кисточку и режим “Mask”, выделяем лицо и загружаем портрет ректора в разделе “Control”.

Вуаля:

Иногда требовалось в точности повторить событие/персонажа по архивным фотографиям. Вот, например, в 2013 году Европейский университет посетил Славой Жижек.

У нас имелась эта фотография:

В режиме Text to image загрузили ее в Control. И вот итог:

Это был мой первый опыт работы с подобной платформой. Оказалось, что Invoke — приятный и довольно простой в пользовании инструмент, который позволяет гибко работать с изображениями и отвечать на поставленные условия. Надеюсь, и вы найдете его полезным.

На сегодня всё. Удачи!

Подробнее о лаборатории «Искусство и искусственный интеллект» Европейского университета в Санкт-Петербурге:

3
Начать дискуссию