Я создал видеоролик, используя Midjourney и Runway Gen-3 и разместил его на YouTube: вот чему я научился и как я его делал

В последнее время я погрузился в мир создания видео с помощью ИИ. Я считаю, что эти инструменты достаточно развились, чтобы с помощью них можно было создавать достойные видеоистории, и единственный способ по-настоящему узнать это - сделать это самому.

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
🔥 При покупке подписки Elite - анлим на генерации в Runway!

Используемые инструменты:

Концепция и сценарий: ChatGPT и Claude AI
Базовые изображения, создание кадров и концепт-дизайн: Midjourney и Freepik
Генерация видео: Runway Gen-3, LumaLabs, Kling
Голоса и звуковые эффекты: ElevenLabs, Hedra Labs и Capcut
Редактирование: Capcut
Графический дизайн: Figma

Поскольку эти инструменты все еще относительно новые, рабочий процесс является экспериментальным, и я рассчитываю, что он будет меняться с каждым уникальным проектом.

Вот обзор процесса, которому я следовал при работе над этим проектом.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Как дизайнер, я часто черпаю вдохновение в отдельных изображениях. Мне понравился стиль sref 3456119169:

Я хотел создать мрачную историю об одиноком фантастическом охотнике за головами, используя этот референс в качестве идеи. С этими мыслями я обратился к ChatGPT и Claude AI для мозгового штурма идей, задав следующий промпт:

Футуристическая обстановка в человеческой колонии на другой планете. Киллер отправляется в бар, чтобы получить плату. В итоге он получает задание на кого-то охотиться. Предложи 5 возможных идей для короткой видеоистории в мрачном стиле киберпанк

Просмотрев ответы, я выбрал понравившиеся идеи и доработал историю с помощью этого промпта:

Составь сценарий по следующему сюжету: Киллер заходит в бар, чтобы забрать свою оплату, но узнает, что человек, который ему должен, был убит известным преступником-дроидом, который скрывался в трущобах колонии и также забрал оплату. Киллер решает охотиться на этого преступника.

Теперь, имея базовый вариант сценария, я использовал его в качестве руководства для создания изображений с помощью Midjourney и Freepik.

Чтобы сохранить единую эстетику во всем видео, я использовал параметр sref в Midjourney, а именно sref 3456119169. Это позволило создать оранжевое, туманное настроение для всех изображений. Вот несколько примеров сгенерированных изображений:

Cinematic Still, aerial view of futuristic city with skyscrapers, remove person, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — p — stylize 1000 — v 6

Cinematic Still, Futuristic vehicle in an alley in a city with skyscrapers, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — v 6 — stylize 1000 — p

Cinematic Still, Futuristic bar sign in an alley, city with skyscrapers in the background, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — v 6 — stylize 1000 — p

Некоторые изображения, созданные с помощью этого sref, были немного грубоваты, что может быть проблематично при анимации.

Для улучшения качества было необходимо увеличить масштаб с помощью Freepik.

На следующем этапе мы анимировали эти изображения с помощью Runway, LumaLabs и Kling. Добавление краткого промпта с описанием необходимых действий помогло оживить сцены:

Промпт: Vehicle flies away

Промпт: Person walking

Функция смешивания изображений LumaLabs оказалась полезной, позволив мне поэкспериментировать с переходами между сценами. Результаты добавили глубину в композицию.

Основная структура уже вырисовывалась.

Но тут возникает САМАЯ БОЛЬШАЯ ПРОБЛЕМА ИИ-фильмов:

Согласованность персонажей.

Это остается серьезной проблемой в ИИ-кинематографе, и она далеко не полностью решена. Для этого проекта я использовал обходной путь, благодаря которому получил удовлетворительные результаты.

У меня было четкое представление о внешности персонажа, основанное на упоминании знаменитостей. Мой первоначальный промпт был таким:

Cinematic still, frontal shot, portrait Bruce Willis with a futuristic trenchcoat walking in an alley, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — p — stylize 1000 — v 6

Он работает.

Он сработал достаточно хорошо, поэтому я использовал его в качестве базового шаблона для всех сцен с персонажами, изменив только описание сцены и добавив параметр -cref с URL-адресом изображения для усиления.

Хотя и не идеально, но достаточно хорошо для проекта.

Совет: Не переживайте по этому поводу. На данный момент идеального решения не существует. Но вы можете сами обучить модель генерировать изображения с одинаковым персонажем. Как это сделать - прочитайте в статье.

NeuroЭнтузиаст (Алексей)

Сервисы

9 сент

Как обучить модель Flux AI Image генерировать неограниченное количество фотографий со своим или чужим лицом

Сегодня вы можете настроить самую мощную открытую модель изображений Flux от Black Forest Labs и создать неограниченное количество изображений самого себя с помощью ИИ. Весь процесс происходит в вашем браузере, вам не нужно мощное оборудование и не нужно писать ни строчки кода.

Для персонажей второго плана есть еще один прием: создайте основной портрет персонажа и используйте редактор Midjourney для изменения окружения. Это вносит достаточное разнообразие в сцену и делает персонажей достаточно разными после анимации.

Примечание: Одним из ограничений, с которым я столкнулся при создании этого sref, была невозможность изменить одежду персонажа на футуристическую. Позже я понял, что смешение этого sref с другим, содержащим футуристические элементы, могло бы решить эту проблему.

После оживления они будут достаточно разными.

Примечание: Здесь я обнаружил ограничение на этот Midjourney sref. Сколько бы я ни менял промпт, я не мог заставить MJ одеть ее в футуристическую одежду. (Когда я писал это, мне пришло в голову, что я мог бы объединить этот sref с другим с футуристическими элементами. Ну и ладно, скорее всего, с Flux будет легче.

Существует несколько вариантов добавления голоса и звука персонажам:

ElevenLabs: Генерация голосов с помощью технологии Text to Voice.
Runway и Hedra Labs: Функции синхронизации губ позволяют добавлять голоса к изображениям.
Capcut: Предлагает генерацию голосов, но не имеет функции синхронизации с губами.

Кроме того, звуковые эффекты улучшают качество видео. И ElevenLabs, и Capcut предоставляют возможность генерировать или добавлять их.

Какой вариант вам больше нравится?

Это окончательный результат. Я буду рад узнать ваши мнения.

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
🔥 При покупке подписки Elite, - анлим на генерации в Runway!

#midjourney #runway #kling #ai #ии

Источник статьи на английском - здесь.

25 комментариев

Комментарий удалён модератором

10 сент

Автор

Да, на таких видео можно натренироваться делать даже мини-фильмы

Ответить

MyNameIsZombie MyNameIsZombie

11 сент

Один из последних клипов Limp Bizkit был сделан таким образом.

Юрий Малашихин

Хайпа много с этими нейронками, а по факту вроде бы видео операторы никуда пока не пропали, как и мультипликаторы.

А куда они пропадут? Просто специалисты, умеющие пользоваться нейросетями, будут все делать быстрее конкурентов, которые не умеют

Alex S

Результат пока выглядит как типичный контент, сгенерированный ИИ - ни больше ни меньше. Эталонные ии-шные ракурсы, условные движения героев, ощущение "анимированных" картинок а не кино-кадров, и нулевая динамика как следствие. Близко не тянет даже на средней руки трейлер.

Это да, но здесь не было задачи сделать реалистичное видео

Я создал видеоролик, используя Midjourney и Runway Gen-3 и разместил его на YouTube: вот чему я научился и как я его делал

Концепция и сценарий

Генерация изображений

Анимация изображений

Персонажи

Голоса и звуки