Как сделать видео про ИИ, применив ИИ: опыт ДОМ.РФ
Про искусственный интеллект сегодня не пишет только ленивый. Нас эти технологии тоже не обошли стороной. Сегодня мы, Цифровая академия ДОМ.РФ, делимся кейсом, как мы интегрировали в свою работу ИИ при создании тематического видеокурса. Использование нейросетей для создания визуальных заставок, улучшения качества видеоматериалов, расширения пространства кадра и генерации контента – обо всём этом написали в нашей статье.
Один из примеров, который мы разберём, – это заставки к видеолекциям, разработанные с помощью нейросетей-художников. И ещё пару ИИ-решений. Кстати, о том, как устроены и работают нейросети-художники, вы можете узнать на странице нашей Цифровой академии ДОМ.РФ.
История одного видео
В 2023 году команда Цифровой академии ДОМ.РФ приступила к работе над курсом по искусственному интеллекту с акцентом на строительную отрасль. Так как планировался асинхронный формат, видеолекции были важным учебным материалом.
Учитывая тренды и большой интерес к применению генеративных моделей, при разработке общей концепции мы решили использовать технологии ИИ в работе над курсом, в том числе и над видео. Это помогло не только сделать качественный и визуально приятный видеоряд, но и попрактиковаться в применении ИИ-инструментов, упрощающих работу оператора и монтажёра.
Подготовка и съёмочный процесс
Утвердив концепцию и подобрав референсы, мы начали готовиться к самим съёмкам. Поскольку мы хотели сделать курс в современном минималистичном стиле, без большого количества лишних деталей в кадре, в качестве локации мы выбрали зал с циклорамой.
Благодаря ей в кадре не было ничего лишнего, акцент был на спикере. Белую циклораму мы дополнительно освещали синим цветом, который задал общее цветовое настроение нашим видеолекциям.
Свободное пространство вокруг спикера мы старались максимально использовать при монтаже для размещения тезисов, инфографики и прочих визуальных компонентов. По сути, у нас была вполне классическая расстановка в две камеры, где одна камера снимает крупный план, а вторая – общий. Уже в процессе создания графики для уроков мы столкнулись с тем, что пространства для вставки графических элементов не всегда хватает на общем плане, и тем более на крупном. Это пространство хотелось использовать более эффективно, иметь возможность размещать объёмные таблицы или графические элементы в масштабе, который бы с лёгкостью позволил считывать информацию при просмотре лекции.
Первые ИИ-манипуляции над видео
Тут мы пришли к первому и, кажется, простому (с оговорками) ИИ-решению. Для него мы использовали по одному кадру из каждой крупности из уже смонтированного и обработанного видео. Этот кадр мы загружали в Adobe Photoshop и с помощью Adobe Firefly генерировали дополнительное пространство кадра, увеличивая пространство вокруг спикера. Потом полученное изображение возвращалось в монтажную программу, где с помощью масок мы совмещали границы кадра, получая бесшовное изображение и расширенный общий план без потери качества. Нюанс был в том, что в то время Adobe Firefly плохо отрабатывал градиентные цвета, поэтому пришлось дорабатывать вручную. Как говорится, «На нейронку надейся, а сам не плошай».
Еще одно неочевидное использование ИИ. Иногда предоставляемые нам материалы к урокам были неподходящего качества с низким разрешением. И на такие случаи тоже есть нейронки, которые весьма неплохо справляются с задачей по улучшению таких материалов. В данном случае мы использовали программу Topaz AI.
Заставки
Так как в большинстве случаев видеолекции достаточно статичные (не считая смены крупностей планов и графики), нам захотелось привнести динамику с помощью создания активных и индивидуальных заставок. Для этого использовали нейросеть Stable Diffusion.
Съёмки заставок мы проводили в том же месте, где снимали основные модули курса. Но мы изменили схему освещения, добавили дополнительные источники света, сделали камеру подвижной за счёт передвижения оператора на сигвее.
Далее мы готовили материал к генерации
- отбирали нужные фазы по каждому спикеру
- делали цветокоррекцию
- преобразовывали видеоряд в последовательность кадров (иными словами, видеоряд превращаем в фотографии) для дальнейшей обработки в Stable Diffusion
Переходим к генерации
Сначала нужно подобрать промпты (текстовые описания) того, как и что мы хотим видеть в итоге.
Важно достаточно подробно ставить задачу нейросети, в противном случае результат будет далёк от желаемого.
Грамотно описать общую картину, задать параметры фокусного расстояния, как у объектива (25мм, 35мм, 50мм…), указать на тех или иных авторов (например, «стилизуй кадр под работы Пикассо»), указать характеристики того персонажа, в которого вы хотите преобразовать человека в кадре, – эти и многие другие параметры влияют на итоговый результат.
Иногда нейросеть подкидывала нам проблем. Так, два из пяти спикеров пришли в одежде, которая по тону близкая к коже. В процессе обработки нейросеть выдавала «пикантные» варианты генераций.
И поскольку возможности переснять у нас не было, пришлось изобретать. Мы «отделили» в программе одежду от спикера и задали им иной цвет, чтоб ИИ не распознал это как кожу.
Дополнительно прописывались негативные промты для исключения генераций контента с возрастным ограничением 18+.
Следующая задача, которую нам нужно было решить, – добиться максимального сходства сгенерированного изображения с реальным человеком в кадре и пространством в целом.
Мы использовали расширение ControlNet – это плагин для Stable Diffusion, который помог решить проблему пространственной согласованности, повторять композицию исходного кадра и позу (модель OpenPose) человека в нём.
С помощью расширения для замены лиц ReActor в нейросеть дополнительно подгружалась оригинальная фотография лица каждого спикера, которая в процессе генерации изображения по заданному нами промпту позволяла сделать внешность персонажа максимально похожей на самого спикера.
После всех манипуляций нам нужно было сшить сгенерированные кадры с живым видео.
Поскольку данные процессы требуют большого вычислительного ресурса, все генерации были выполнены в разрешении 1280х720. За счёт этого мы могли быстрее получать результат и не так сильно нагружать систему.
Для возвращения разрешения видео к требуемым параметрам мы использовали Topaz AI.
После этого мы возвращали видео в монтажную программу и создавали гармоничный переход между двумя фрагментами.
Как создатели проекта мы многому учились на ходу и провели большое количество экспериментов. Надеемся, результат вдохновит вас на использование технологий ИИ в своей работе.
P.S.
На наш взгляд, искусственный интеллект никогда не отберёт работу у креаторов. Это лишь инструмент, который дополняет навыки человека.
Авторы:
Александр Ковырялов и Александр Сайгафаров, видеопродакшен Цифровой академии ДОМ.РФ
"На наш взгляд, искусственный интеллект никогда не отберёт работу у креаторов. Это лишь инструмент, который дополняет навыки человека."
Не отберет? Китайский ИИ МиниМах уже отбирает. Вот здесь нет ни одного реального кадра. Всё это генерация. Причём, бесплатная: https://rutube.ru/video/59ec43a060245b134f40c4acb2d460e4/?r=plwd
Отличная статья! Гриша 👏
вам повезло, что за это вам платят деньги