Составление сложных сцен с несколькими объектами в Midjourney
Текущие технические ограничения Midjourney обычно не позволяют изобразить несколько отдельных объектов на одном снимке. Объекты смешиваются, и Midjourney не в состоянии уловить все детали, о которых говорится в промпте, когда вы пытаетесь создать сложную композицию с несколькими объектами. В этой статье я хочу показать вам, как можно шаг за шагом решить эту проблему с помощью функции Vary (Region) в сочетании с Remix и Vary (Subtle).
В качестве эксперимента в этой статье мы попробуем создать изображение военного, прощающегося со своей семьей на железнодорожной платформе. Допустим, мы хотим, чтобы мужчина стоял на коленях перед своим сыном, а жена оставалась позади ребенка.
Вот промпт, с которого я начал (примечание: нужно было включить "2020-е годы", чтобы избежать изображений времен Второй мировой войны).
Удивительно, но все изображения, которые я получил, были с дочерьми, а не с сыновьями.
Давайте начнем с этого изображения и посмотрим, как можно пошагово отредактировать его, чтобы получить все недостающие компоненты.
Прежде всего, я использовал Vary (Region), чтобы заменить девочку на мальчика.
Затем я снова применил функцию Vary (Region), чтобы получить реальный поезд позади мальчика.
Далее я попытался изобразить женщину позади мальчика, что оказалось довольно сложной задачей, потребовавшей нескольких итераций. Сначала я выделил область позади мальчика в Vary (Region) и смог получить следующее изображение, наиболее близкое к тому, что я хотел, а также наименее странное 🙂 .
Заметьте, на самом деле мне было плевать на жакет и его цвет, но этот трюк позволил мне получить реалистичных женщин из той же эпохи, а не такие картинки, как эта 🙂 .
Затем я использовал Vary (Subtle) для изображения с женщиной в черном пиджаке, чтобы еще больше приблизиться к тому, чего я хотел добиться.
Изображение наконец-то включает все необходимые компоненты, и у меня получилась женщина, стоящая боком, как я и представлял. Но с этим изображением все еще слишком много проблем, особенно когда речь идет о женщине. Поэтому я снова использовал Vary (Region), чтобы скорректировать платье женщины.
Затем я искал способ улучшить качество и реалистичность всего изображения. В частности, я применил Vary (Subtle) к изображению выше и немного поэкспериментировал с различными версиями Midjourney и словами, связанными с фотографией. Вот промпт, с помощью которого я получил результат, который мне понравился.
Я добавил editorial photography (редакционную съемку), чтобы получить более качественный снимок, а --v 5.1 и --style raw, по-видимому, добавили реалистичности изображению.
Возможно, изображение еще не идеально, и вы все еще можете заметить довольно много признаков его искусственного происхождения, но это здорово - видеть, насколько хорошо мы можем контролировать генерацию с последними функциями Midjourney. С нетерпением жду, что будет дальше!
Источник статьи на английском - здесь.
У женщины рост 120-130 см на вид.
Она - Фродо. Они с Гендальфом покидают Средиземье, и прощаются с Сэмом
Идеальна для «вертолета»
Прикола ради, кто-нибудь так сядьте, как военный... ))) Это настолько неестественная поза...
Это называется «полтора» вполне естественная поза
Это самая неустойчивая поза. Вы можете достаточно сильно травмировать, как связки голеностопа, так и другие части тела, если завалитесь.
Кому как.
У каждого свой опыт, дружище 😏
А потом он возмущается, что его комменты минусуют ))
Ты тоже что ли опытный сиделец?
Минусуй дальше порвашка.
Батя обещает 🚽 привезти, ну если получится 😁
А можно было просто написать «груз 200 прощается с семьей на жд платформе».
Вопрос: нахуя? Нахуя я потратил 2 минуты времени на прочтение этого
, а мы 10 секунд на этот пустой Пикабу-стайл комментарий.
Пикабушники палятся по комментариям ).
К счастью, у меня никогда не было аккаунта на пикабу.
Ну почему же к счастью? Там тоже много адекватных людей есть, но и часто встречаются быдловатые хамы, которые ничего не читают длиной более 200 символов, но обсерают всё и вся.
Вот что мне не нравится в нейронках. В статье получилось 8 генераций и 8 апскейлов (итого уже 16, а промежуточных могло быть еще штук 40) прежде чем получился приемлемый результат. Весь тариф можно потратить на пару картинок.
дело времени. результат будет становиться качествене при еще более дешевых тарифах
Тот же промт в Dall-E. Вдруг кому интересно
Это с другой стороны линии фронта.
Dalle-E в Bing
А как вы получили в Dalle прямоугольное фото? Или вы делали не через Bing chat?
Я в приложении GPT
Если внимательно посмотреть и подумать о пропорциях, то оказывается, что женщина лилипут))
Вот ещё один вариант. Для реалистичности добавил "в стиле фотографии 2010-×"
А мне больше типаж женщины на предпоследнем фото понравился. Такая обычная, среднестатистическая. На последнем слишком худая, изможденная.
Так у нее муж в армию уходит. Переживает
Наглядный пример того, что если тебе в ИИ нужно получить картинку с определёнными деталями и нюансами, а не ванильный рандом, по промптам надо уже конкретно задрачиваться, на что немало времени уйдет. Тут возникает вопрос - а не быстрее ли это все собрать в ФШ? )))
Дело в том, что тем, кто не умеет работать в ФШ, не быстрее).
У мальчика заячья губа
А кто-нибудь умеет решать задачу (или она вообще нерешаема, ни в какой нейросети) генерации нескольких картинок из одной истории, или хотя бы с одним персонажем? Вот по этому промту нарисовали худо-бедно солдата, как он с сыном прощается... А дальше мы хотим сделать вторую картинку из сета - этот же солдат, на том же вокзале, рядом с тем же поездом - но прощается с женой. Это достижимо? По отдельности - легко сделать, но получатся разные солдаты, разные жены, разные поезда и вокзалы.
Или хотя бы это же солдат но через 3 дня (или за три дня). В другой обстановке, другой одежде, но все-таки этот же, с тем же цветом волос и стрижкой, тем же цветом глаз, формой ушей-носа... Я вот пока не нашел нигде такой функции.
Хочется как-то сделать что-то вроде "нарисуй Ивана Петровича, ему 37 лет, рост 184 см, вес 95 кг, рыжие волосы, короткая стрижка, чуть оттопыреные уши", а потом "нарисуй Ивана Петровича на вокзале", "нарисуй как Иван Петрович ест колбасу". Пока что единственный способ - это использовать известных личностей, типа "Курт Рассел в армейской форме прощается с Бритни Спирз на вокзале", "Курт Рассел машет рукой из вагона поезда".
Не умеет, это в процессе разработки, нейронки затачивались под рандомную генерацию, а под повторную нет. Но с другой стороны, если взять нейронку от Яндекса, то она настолько примитивная, что там все женщины одинаковые плюс-минус, так что сделать сет из очень похожих в целом несложно.
Супер статья. Спасибо большое. Постоянно с такими проблемами сталкиваюсь
Скажите, пожалуйста, а есть возможность, чтобы немного автоматизировать генерацию, задать сразу количество вариантов?
Пишешь, например, промт "Весёлые гуси покидают голову".
Генерируется одно изображение.
Если хочется получше, чуть по-другому, то снова жамкаешь "Сгенерировать".
И снова.
И снова.
Пока не добиваешься по-настоящему интересной и безглючной (все пальцы на месте, из глаз не растут волосы и т.д.) картинки.
Так вот хотелось бы автоматизировать этот этап - задал, например, чтобы 30 вариантов настрогались, а сам потом только картинки пролистал и выбрал пару лучших.
Можно так? Есть какой-то оператор-команда?
Fooocus по-умолчанию 2 варианта генерит, но можно хоть 202 попросить.
Спасибо за наводку, попробую.
Нет.
да, пишешь скрипт взаимодействия с api
Кг/ам
Комментарий удален модератором