Нужен ли ИИ в видеопродакшне? Создаем ролик для «Острова мечты» с помощью ChatGPT, Midjorney, DALL·E 2 и Riffusion

Рассказываем, как с помощью нейросетей мы попробовали создать рекламный ролик по реальному брифу клиента: сгенерировали сценарий, актеров, персонажей и даже музыку.

Нужен ли ИИ в видеопродакшне? Создаем ролик для «Острова мечты» с помощью ChatGPT, Midjorney, DALL·E 2 и Riffusion

Искусственный интеллект развивается все быстрее, многие компании уже пытаются внедрить его в работу и автоматизировать процессы. Мы видели кейсы, в которых нейросети создают иллюстрации и дизайн для соцсетей, помогают в написании текстов для разных площадок и даже генерируют код, выполняя рутинную работу за программистов. Команда Yes, today! Film решила проверить, как хорошо искусственный интеллект справится с задачей по созданию рекламного видеоролика. Чтобы результат получился приближенный к реальности, мы решили работать с нейросетями по брифу нашего клиента — «Острова мечты», с которым мы сотрудничали в прошлом году. Отыскали документ с брифом, зарегистрировались в популярных нейросетях и пошли генерить сценарий, актеров, персонажей и музыку.

О клиенте и задаче

Остров Мечты — первый в России и крупнейший в Европе крытый парк развлечений в Нагатинской пойме на берегу Москва-реки. Территория парка огромна: аттракционы, детские и игровые центры, магазины, фудкорты и ландшафтный парк с зоной отдыха.

Нужен ли ИИ в видеопродакшне? Создаем ролик для «Острова мечты» с помощью ChatGPT, Midjorney, DALL·E 2 и Riffusion

Клиент пришел с задачей снять рекламу именно ландшафтного парка — часть острова с тенистыми аллеями, водоемами, фонтанами, пространствами для комфортного отдыха и детскими площадками. Это идеальное место для семейного времяпрепровождения, прогулок с детьми, активных развлечений и подвижных игр, где каждый найдет занятие по душе. Возможности этого пространства как раз необходимо было отразить в ролике.

Остров Мечты хотели сделать акцент на развлечениях для молодежной аудитории, поэтому запрос на съемку был следующий: «Драйвовый ролик об активном и эстетичном отдыхе в ландшафтном парке. Молодые люди, которые гуляют и занимаются разными делами: катаются на велосипеде, устраивают пикник, делают йогу, обедают в летнем кафе. Все образы должны быть яркие, запоминающиеся».

С такими вводными мы и обратились к нейросетям: ChatGPT, Midjorney, DALL E 2 и Riffusion.

Сюжет

После брифинга клиента наша команда обычно приступает к разработке концепции ролика. За сюжетом мы обратились к ChatGPT, которой силён в генерации подобных идей.

В первом запросе нейросеть создала нам сценарий с закадровой озвучкой на 1740 знаков. Задачу про парк и молодых людей ChatGPT понял правильно, вот, например, что он предложил (переведено с помощью встроенного веб-переводчика):

Нужен ли ИИ в видеопродакшне? Создаем ролик для «Острова мечты» с помощью ChatGPT, Midjorney, DALL·E 2 и Riffusion

Вполне неплохо, но закадровый голос звучит шаблонно и кажется лишним. Тогда мы решили добавить в конце запроса пометку «without narrator», и следующий результат порадовал больше. Нейросеть описала не только то, что будет происходить в каждом кадре на переднем и заднем плане, но и движение камеры. Например (переведено с помощью встроенного веб-переводчика):

Нужен ли ИИ в видеопродакшне? Создаем ролик для «Острова мечты» с помощью ChatGPT, Midjorney, DALL·E 2 и Riffusion

ChatGPT сам определил нужное количество кадров: в первом и во втором сценарии их было восемь, а также сгенерировал разные действия, которые будут на них происходить. Нам зашло, оставляем.

Персонажи

Сценарий согласовали, переходим к его детальной проработке и подбору актеров. Остров Мечты хотели видеть в кадре ярких молодых людей, поэтому мы попросили ChatGPT дать подробное описание трем таким персонажам. В итоге мы получили Эмили, Макса и Софию. ИИ прописал возраст, цвет волос и глаз, черты лица, строение тела и даже одежду каждого. Внешность Эмили, к примеру, описана вот так:

Нужен ли ИИ в видеопродакшне? Создаем ролик для «Острова мечты» с помощью ChatGPT, Midjorney, DALL·E 2 и Riffusion

С этими описаниями мы пошли к Midjorney и попробовали визуализировать наших актеров.

Эмили
Эмили
<p><i>София, девушка с короткой стрижкой и розовым цветом волос, переходящим на кончиках в неоновый зеленый </i></p>

София, девушка с короткой стрижкой и розовым цветом волос, переходящим на кончиках в неоновый зеленый

Девушки выглядят эффектно! Но вот парни у ChatGPT и Midjorney получились хуже — слишком суровые, под настроение ролика не подходят. Поэтому мы подкорректировали запрос, ввели: «молодой жизнерадостный парень с необычной прической и яркой, стильной внешностью», и нейросети выдали совершенно другой результат.

<i>Первый запрос: Макс, брюнет с модной стрижкой и татуировками на теле</i>
Первый запрос: Макс, брюнет с модной стрижкой и татуировками на теле
<i>Обновленное описание его внешности</i>
Обновленное описание его внешности

Думаем, что в кадре эти ребята смотрелись бы отлично. Берем их в работу и идем дальше.

Локации

Ландшафтный парк большой, а нам необходимо выбрать несколько лучших локаций. На этом этапе мы решили протестировать еще одну нейросеть — DALL E 2. Те, кто успели ее изучить, отмечают, что персонажей она создает криво, а вот с локациями дела обстоят лучше.

У Острова Мечты в ландшафтном парке есть летний кинотеатр, пруд, спортивные площадки и кафе. Попробуем опираться на эти ключевые слова.

Если добавить в эти локации наших ярких персонажей, кадр получится интересный. DALL E 2 неплохо справился со своей задачей, но на составление запросов пришлось потратить много времени. Сначала он выдавал результаты леса, пруд выглядел зеленым, как болото, а кафе показывал не полностью, только стул и столики, стоящие на улице.

Музыка

Когда наша команда создавала креатив для Острова Мечты, мы решили, что закадрового голоса в ролике не будет, только музыка на фоне. Поэтому подумали, что нейросети на этапе постпродакшена могли бы помочь нам подобрать музыку под настроение и динамику видео. Для генерации трека мы использовали Riffusion — модель искусственного интеллекта, которая генерирует музыку на основе текстовых подсказок.

Нам нужна была динамичная песня для быстрой смены кадров, т.к. локаций много и на каждую приходится всего несколько секунд.

Музыка, сгенерированная программой Riffusion

Результат нас не впечатлил: музыка получилась однообразная и совсем не драйвовая. Какие бы мы запросы не присылали, нейросеть выдает что-то в стиле хауса. Расслабиться и немного подвигаться — да, но веселится, кататься на велике и отдыхать в парке — точно нет.

Видео-бонус

Пока мы выбирали нейросети, которые будем тестировать в этой статье, нашли сервис, способный генерировать видео по текстовому запросу. Designs AI — креативная платформа на базе искусственного интеллекта, которая может создавать логотипы, графику, видео и баннеры в социальных сетях за считанные минуты. Загрузить туда наших персонажей и музыку невозможно, но сценарий, созданный ChatGPT, вполне реально. Правда, нам пришлось его сократить до нескольких предложений, потому что словосочетание «движение камеры», например, программа воспринимает буквально и показывает, как человек держит в руках фотоаппарат. Также система озвучивает текстовый запрос закадровым голосом в готовом видео и дублирует эти же предложения на экран. Зачем? Мы не смогли понять. Убрать закадровый голос можно, а вот текст с экрана никак, что выглядит неуместно и портит всю картинку. Запросы программа понимает через раз, генерирует фрагменты, не связанные друг с другом.

Видео, сгенерированное на платформе Designs AI

Мы не представляем, как такой инструмент можно использовать в коммерческих целях. Качество видео, текст, наложенный поверх и дублирующий запрос, шаблонность переходов и музыки — все это говорит о том, что подобные нейросети пока не готовы конкурировать с креативными командами и решать задачи клиента.

Итого

Искусственный интеллект может стать отличным помощником продакшн-студиям. Например, для разгона креатива при проработке сценария или в подборе актеров — Midjorney поможет визуализировать картинку, которая есть у вас в голове. ИИ продолжит обучаться, но в ближайшие 10-20 лет точно не заменит команду видеопродакшена. Сама съемка остается главным этапом в создании ролика, и пока нейросети не в силах выполнять такую работу. В качестве подтверждения хотим показать рекламу, которую мы сняли по тому же брифу для Острова Мечты.

Ролик, который мы сняли летом 2022 года для «Острова Мечты»

Расскажите в комментариях, что вы думаете об использовании нейросетей в видеопродакшне — особенно если у вас есть подобный удачный опыт. Будем очень рады, если поделитесь им с нами :)

1616
18 комментариев

Представляю разочарование москвичей, которые туда придут после этого ролика. Где панки, коктейли, ядовитая трава? Где эти люди с чистыми лицами без следа мысли в глазах? Доколе?
Кстати, а зачем вообще генеренка? Бюджет или что-то другое?

3

Мы просто решили протестировать возможности ИИ в создании видеорекламы. Ролик для Острова Мечты, который представлен в конце статьи, мы сняли в прошлом году своими силами, без использования нейронок. А сейчас решили взять тот же бриф, посмотреть, какой результат сгенерят нейросети и сравнить это с тем, что получилось у нашей команды :)

Надеюсь вы не узнаете что такое "остров мечты")

Что же, конечный ролик который сняли летом 2022 года. Ничего не рассказывает про этот остров. Народ может также активно и на воробьях бегать, есть виноград, сидеть на траве и поливать друг друга из водяных пистолетов. Ролик просто ни о чем. Припрели нейронки потому что это популярно, а в ролике ничего от нейронок нет.

2

оу, ну, давайте введем вас в курс дела.

Перед нами стояла задача показать разные локации ландшафтного парка и передать атмосферу парка — отсюда воробьи, трава и пистолеты :) Драматургия здесь не нужна, совсем другая цель была у клиента. За другим подходом велком на наш сайт, там найдете разные работы: https://yestoday.pro

На момент съемок нейросети, конечно, не настолько еще были развиты, так что мы решили потестить их сейчас на ролике, который уже готов и оценен клиентом. Почему нет?)

2

спасибо что сказали когда снят ролик

1

Вот смотрю как нейросети генерируют картинки, какие-то классные, а какие-то очень красивые

1