{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Составление сложных сцен с несколькими объектами в Midjourney

Текущие технические ограничения Midjourney обычно не позволяют изобразить несколько отдельных объектов на одном снимке. Объекты смешиваются, и Midjourney не в состоянии уловить все детали, о которых говорится в промпте, когда вы пытаетесь создать сложную композицию с несколькими объектами. В этой статье я хочу показать вам, как можно шаг за шагом решить эту проблему с помощью функции Vary (Region) в сочетании с Remix и Vary (Subtle).

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

В качестве эксперимента в этой статье мы попробуем создать изображение военного, прощающегося со своей семьей на железнодорожной платформе. Допустим, мы хотим, чтобы мужчина стоял на коленях перед своим сыном, а жена оставалась позади ребенка.

Вот промпт, с которого я начал (примечание: нужно было включить "2020-е годы", чтобы избежать изображений времен Второй мировой войны).

a photo of a man in the military unifrom saying goodbye to his family at the train platform, the man is kneeling down to his son, the wife is standing behind the son, the 2020s --ar 16:9

Удивительно, но все изображения, которые я получил, были с дочерьми, а не с сыновьями.

Давайте начнем с этого изображения и посмотрим, как можно пошагово отредактировать его, чтобы получить все недостающие компоненты.
Прежде всего, я использовал Vary (Region), чтобы заменить девочку на мальчика.

a photo of a man in the military uniform kneeling down to his son, the 2020s --ar 16:9

Затем я снова применил функцию Vary (Region), чтобы получить реальный поезд позади мальчика.

a train behind a man in the military uniform kneeling down to his son, the 2020s --ar 16:9

Далее я попытался изобразить женщину позади мальчика, что оказалось довольно сложной задачей, потребовавшей нескольких итераций. Сначала я выделил область позади мальчика в Vary (Region) и смог получить следующее изображение, наиболее близкое к тому, что я хотел, а также наименее странное 🙂 .

a nice woman in the black jacket standing behind her son on the train platform, with her arm around his shoulder, the 2020s --ar 16:9

Заметьте, на самом деле мне было плевать на жакет и его цвет, но этот трюк позволил мне получить реалистичных женщин из той же эпохи, а не такие картинки, как эта 🙂 .

Затем я использовал Vary (Subtle) для изображения с женщиной в черном пиджаке, чтобы еще больше приблизиться к тому, чего я хотел добиться.

a photo of a man in the military uniform kneeling down to his son on the train platform, the wife is standing behind the son with her arm around his shoulder, the 2020s --ar 16:9

Изображение наконец-то включает все необходимые компоненты, и у меня получилась женщина, стоящая боком, как я и представлял. Но с этим изображением все еще слишком много проблем, особенно когда речь идет о женщине. Поэтому я снова использовал Vary (Region), чтобы скорректировать платье женщины.

the wife is standing behind the son with her arm around his shoulder, the 2020s --ar 16:9

Затем я искал способ улучшить качество и реалистичность всего изображения. В частности, я применил Vary (Subtle) к изображению выше и немного поэкспериментировал с различными версиями Midjourney и словами, связанными с фотографией. Вот промпт, с помощью которого я получил результат, который мне понравился.

a military man kneeling down to his son on the train platform, the wife is standing behind the son, the 2020s, editorial photography --ar 16:9 --v 5.1 --style raw

Я добавил editorial photography (редакционную съемку), чтобы получить более качественный снимок, а --v 5.1 и --style raw, по-видимому, добавили реалистичности изображению.

Возможно, изображение еще не идеально, и вы все еще можете заметить довольно много признаков его искусственного происхождения, но это здорово - видеть, насколько хорошо мы можем контролировать генерацию с последними функциями Midjourney. С нетерпением жду, что будет дальше!

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

Источник статьи на английском - здесь.

0
39 комментариев
Написать комментарий...
Dmts

У женщины рост 120-130 см на вид.

Ответить
Развернуть ветку
Александр Смирнов

Она - Фродо. Они с Гендальфом покидают Средиземье, и прощаются с Сэмом

Ответить
Развернуть ветку
ChatGPT

Идеальна для «вертолета»

Ответить
Развернуть ветку
Sergei Timofeyev

Прикола ради, кто-нибудь так сядьте, как военный... ))) Это настолько неестественная поза...

Ответить
Развернуть ветку
А А

Это называется «полтора» вполне естественная поза

Ответить
Развернуть ветку
Sergei Timofeyev

Это самая неустойчивая поза. Вы можете достаточно сильно травмировать, как связки голеностопа, так и другие части тела, если завалитесь.

Ответить
Развернуть ветку
Невероятный Блондин

Кому как.
У каждого свой опыт, дружище 😏

Ответить
Развернуть ветку
дед Мазай и санитары

А потом он возмущается, что его комменты минусуют ))

Ответить
Развернуть ветку
Невероятный Блондин

Ты тоже что ли опытный сиделец?
Минусуй дальше порвашка.

Ответить
Развернуть ветку
Asf

Батя обещает 🚽 привезти, ну если получится 😁

Ответить
Развернуть ветку
Невероятный Блондин

А можно было просто написать «груз 200 прощается с семьей на жд платформе».

Ответить
Развернуть ветку
Дмитрий

Вопрос: нахуя? Нахуя я потратил 2 минуты времени на прочтение этого

Ответить
Развернуть ветку
Буквоед

, а мы 10 секунд на этот пустой Пикабу-стайл комментарий.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Пикабушники палятся по комментариям ).

Ответить
Развернуть ветку
Дмитрий

К счастью, у меня никогда не было аккаунта на пикабу.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Ну почему же к счастью? Там тоже много адекватных людей есть, но и часто встречаются быдловатые хамы, которые ничего не читают длиной более 200 символов, но обсерают всё и вся.

Ответить
Развернуть ветку
Zloy Marketolog

Вот что мне не нравится в нейронках. В статье получилось 8 генераций и 8 апскейлов (итого уже 16, а промежуточных могло быть еще штук 40) прежде чем получился приемлемый результат. Весь тариф можно потратить на пару картинок.

Ответить
Развернуть ветку
Sergey Sorokin

дело времени. результат будет становиться качествене при еще более дешевых тарифах

Ответить
Развернуть ветку
Ernis Temirkan

Тот же промт в Dall-E. Вдруг кому интересно

Ответить
Развернуть ветку
Буквоед

Это с другой стороны линии фронта.

Ответить
Развернуть ветку
Omnius

Dalle-E в Bing

Ответить
Развернуть ветку
Omnius

А как вы получили в Dalle прямоугольное фото? Или вы делали не через Bing chat?

Ответить
Развернуть ветку
Ernis Temirkan

Я в приложении GPT

Ответить
Развернуть ветку
Родитель 1

Если внимательно посмотреть и подумать о пропорциях, то оказывается, что женщина лилипут))

Ответить
Развернуть ветку
Ernis Temirkan

Вот ещё один вариант. Для реалистичности добавил "в стиле фотографии 2010-×"

Ответить
Развернуть ветку
Rafael Usmanov

А мне больше типаж женщины на предпоследнем фото понравился. Такая обычная, среднестатистическая. На последнем слишком худая, изможденная.

Ответить
Развернуть ветку
Wtf Wtfakovich

Так у нее муж в армию уходит. Переживает

Ответить
Развернуть ветку
Alex S

Наглядный пример того, что если тебе в ИИ нужно получить картинку с определёнными деталями и нюансами, а не ванильный рандом, по промптам надо уже конкретно задрачиваться, на что немало времени уйдет. Тут возникает вопрос - а не быстрее ли это все собрать в ФШ? )))

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Дело в том, что тем, кто не умеет работать в ФШ, не быстрее).

Ответить
Развернуть ветку
A

У мальчика заячья губа

Ответить
Развернуть ветку
Культурный слой

А кто-нибудь умеет решать задачу (или она вообще нерешаема, ни в какой нейросети) генерации нескольких картинок из одной истории, или хотя бы с одним персонажем? Вот по этому промту нарисовали худо-бедно солдата, как он с сыном прощается... А дальше мы хотим сделать вторую картинку из сета - этот же солдат, на том же вокзале, рядом с тем же поездом - но прощается с женой. Это достижимо? По отдельности - легко сделать, но получатся разные солдаты, разные жены, разные поезда и вокзалы.

Или хотя бы это же солдат но через 3 дня (или за три дня). В другой обстановке, другой одежде, но все-таки этот же, с тем же цветом волос и стрижкой, тем же цветом глаз, формой ушей-носа... Я вот пока не нашел нигде такой функции.

Хочется как-то сделать что-то вроде "нарисуй Ивана Петровича, ему 37 лет, рост 184 см, вес 95 кг, рыжие волосы, короткая стрижка, чуть оттопыреные уши", а потом "нарисуй Ивана Петровича на вокзале", "нарисуй как Иван Петрович ест колбасу". Пока что единственный способ - это использовать известных личностей, типа "Курт Рассел в армейской форме прощается с Бритни Спирз на вокзале", "Курт Рассел машет рукой из вагона поезда".

Ответить
Развернуть ветку
Zloy Marketolog

Не умеет, это в процессе разработки, нейронки затачивались под рандомную генерацию, а под повторную нет. Но с другой стороны, если взять нейронку от Яндекса, то она настолько примитивная, что там все женщины одинаковые плюс-минус, так что сделать сет из очень похожих в целом несложно.

Ответить
Развернуть ветку
Zimen Ermakov

Супер статья. Спасибо большое. Постоянно с такими проблемами сталкиваюсь

Ответить
Развернуть ветку
Буквоед

Скажите, пожалуйста, а есть возможность, чтобы немного автоматизировать генерацию, задать сразу количество вариантов?

Пишешь, например, промт "Весёлые гуси покидают голову".
Генерируется одно изображение.
Если хочется получше, чуть по-другому, то снова жамкаешь "Сгенерировать".
И снова.
И снова.
Пока не добиваешься по-настоящему интересной и безглючной (все пальцы на месте, из глаз не растут волосы и т.д.) картинки.
Так вот хотелось бы автоматизировать этот этап - задал, например, чтобы 30 вариантов настрогались, а сам потом только картинки пролистал и выбрал пару лучших.
Можно так? Есть какой-то оператор-команда?

Ответить
Развернуть ветку
Культурный слой

Fooocus по-умолчанию 2 варианта генерит, но можно хоть 202 попросить.

Ответить
Развернуть ветку
Буквоед

Спасибо за наводку, попробую.

Ответить
Развернуть ветку
Zloy Marketolog

Нет.

Ответить
Развернуть ветку
403 Forbidden

да, пишешь скрипт взаимодействия с api

Ответить
Развернуть ветку
Глеб Филипов

Кг/ам

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
36 комментариев
Раскрывать всегда