Я создал видеоролик, используя Midjourney и Runway Gen-3 и разместил его на YouTube: вот чему я научился и как я его делал

В последнее время я погрузился в мир создания видео с помощью ИИ. Я считаю, что эти инструменты достаточно развились, чтобы с помощью них можно было создавать достойные видеоистории, и единственный способ по-настоящему узнать это - сделать это самому.

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
🔥 При покупке подписки Elite - анлим на генерации в Runway!

Используемые инструменты:

Концепция и сценарий: ChatGPT и Claude AI
Базовые изображения, создание кадров и концепт-дизайн: Midjourney и Freepik
Генерация видео: Runway Gen-3, LumaLabs, Kling
Голоса и звуковые эффекты: ElevenLabs, Hedra Labs и Capcut
Редактирование: Capcut
Графический дизайн: Figma

Поскольку эти инструменты все еще относительно новые, рабочий процесс является экспериментальным, и я рассчитываю, что он будет меняться с каждым уникальным проектом.

Вот обзор процесса, которому я следовал при работе над этим проектом.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Как дизайнер, я часто черпаю вдохновение в отдельных изображениях. Мне понравился стиль sref 3456119169:

Я хотел создать мрачную историю об одиноком фантастическом охотнике за головами, используя этот референс в качестве идеи. С этими мыслями я обратился к ChatGPT и Claude AI для мозгового штурма идей, задав следующий промпт:

Футуристическая обстановка в человеческой колонии на другой планете. Киллер отправляется в бар, чтобы получить плату. В итоге он получает задание на кого-то охотиться. Предложи 5 возможных идей для короткой видеоистории в мрачном стиле киберпанк

Просмотрев ответы, я выбрал понравившиеся идеи и доработал историю с помощью этого промпта:

Составь сценарий по следующему сюжету: Киллер заходит в бар, чтобы забрать свою оплату, но узнает, что человек, который ему должен, был убит известным преступником-дроидом, который скрывался в трущобах колонии и также забрал оплату. Киллер решает охотиться на этого преступника.

Теперь, имея базовый вариант сценария, я использовал его в качестве руководства для создания изображений с помощью Midjourney и Freepik.

Чтобы сохранить единую эстетику во всем видео, я использовал параметр sref в Midjourney, а именно sref 3456119169. Это позволило создать оранжевое, туманное настроение для всех изображений. Вот несколько примеров сгенерированных изображений:

Cinematic Still, aerial view of futuristic city with skyscrapers, remove person, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — p — stylize 1000 — v 6

Cinematic Still, Futuristic vehicle in an alley in a city with skyscrapers, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — v 6 — stylize 1000 — p

Cinematic Still, Futuristic bar sign in an alley, city with skyscrapers in the background, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — v 6 — stylize 1000 — p

Некоторые изображения, созданные с помощью этого sref, были немного грубоваты, что может быть проблематично при анимации.

Для улучшения качества было необходимо увеличить масштаб с помощью Freepik.

На следующем этапе мы анимировали эти изображения с помощью Runway, LumaLabs и Kling. Добавление краткого промпта с описанием необходимых действий помогло оживить сцены:

Промпт: Vehicle flies away

Промпт: Person walking

Функция смешивания изображений LumaLabs оказалась полезной, позволив мне поэкспериментировать с переходами между сценами. Результаты добавили глубину в композицию.

Основная структура уже вырисовывалась.

Но тут возникает САМАЯ БОЛЬШАЯ ПРОБЛЕМА ИИ-фильмов:

Согласованность персонажей.

Это остается серьезной проблемой в ИИ-кинематографе, и она далеко не полностью решена. Для этого проекта я использовал обходной путь, благодаря которому получил удовлетворительные результаты.

У меня было четкое представление о внешности персонажа, основанное на упоминании знаменитостей. Мой первоначальный промпт был таким:

Cinematic still, frontal shot, portrait Bruce Willis with a futuristic trenchcoat walking in an alley, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — p — stylize 1000 — v 6

Он работает.

Он сработал достаточно хорошо, поэтому я использовал его в качестве базового шаблона для всех сцен с персонажами, изменив только описание сцены и добавив параметр -cref с URL-адресом изображения для усиления.

Хотя и не идеально, но достаточно хорошо для проекта.

Совет: Не переживайте по этому поводу. На данный момент идеального решения не существует. Но вы можете сами обучить модель генерировать изображения с одинаковым персонажем. Как это сделать - прочитайте в статье.

NeuroЭнтузиаст (Алексей)

Сервисы

09.09.2024

Как обучить модель Flux AI Image генерировать неограниченное количество фотографий со своим или чужим лицом

Сегодня вы можете настроить самую мощную открытую модель изображений Flux от Black Forest Labs и создать неограниченное количество изображений самого себя с помощью ИИ. Весь процесс происходит в вашем браузере, вам не нужно мощное оборудование и не нужно писать ни строчки кода.

Для персонажей второго плана есть еще один прием: создайте основной портрет персонажа и используйте редактор Midjourney для изменения окружения. Это вносит достаточное разнообразие в сцену и делает персонажей достаточно разными после анимации.

Примечание: Одним из ограничений, с которым я столкнулся при создании этого sref, была невозможность изменить одежду персонажа на футуристическую. Позже я понял, что смешение этого sref с другим, содержащим футуристические элементы, могло бы решить эту проблему.

После оживления они будут достаточно разными.

Примечание: Здесь я обнаружил ограничение на этот Midjourney sref. Сколько бы я ни менял промпт, я не мог заставить MJ одеть ее в футуристическую одежду. (Когда я писал это, мне пришло в голову, что я мог бы объединить этот sref с другим с футуристическими элементами. Ну и ладно, скорее всего, с Flux будет легче.

Существует несколько вариантов добавления голоса и звука персонажам:

ElevenLabs: Генерация голосов с помощью технологии Text to Voice.
Runway и Hedra Labs: Функции синхронизации губ позволяют добавлять голоса к изображениям.
Capcut: Предлагает генерацию голосов, но не имеет функции синхронизации с губами.

Кроме того, звуковые эффекты улучшают качество видео. И ElevenLabs, и Capcut предоставляют возможность генерировать или добавлять их.

Какой вариант вам больше нравится?

Это окончательный результат. Я буду рад узнать ваши мнения.

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
🔥 При покупке подписки Elite, - анлим на генерации в Runway!

#midjourney #runway #kling #ai #ии

Источник статьи на английском - здесь.

Я создал видеоролик, используя Midjourney и Runway Gen-3 и разместил его на YouTube: вот чему я научился и как я его делал

Концепция и сценарий

Генерация изображений

Анимация изображений

Персонажи

Голоса и звуки