Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Привет. Я работаю дизайнером в Диджитал Агентстве JetStyle — оформляю наши социальные сети, статьи, различные конкурсные площадки, в общем отвечаю за визуальную составляющую наших коммуникаций. В Августе 2022-го года мы решили, что оформить статью на VC с помощью Midjourney это офигенный план. Опыт был невероятный, но повторять его не хотелось еще очень долгое время. Однако нейросети обновлялись, и неизбежно проникали в нашу дизайнерскую деятельность. С тех пор мы сделали множество визуалов, как статичных, так и в последствии анимированных. Работали в Midjourney, Stable Diffusion, Dall-E, SkyBoxAI, Gen2, Pika Labs и множестве других AI сервисах. Первым, конечно, пользуемся чаще, и не всегда только для работы, но и чтобы мемов к пятнице наделать. В общем, про Жору (так мы его ласково называем) я сегодня и расскажу, а точнее про то, как упростить себе работу с ним в тандеме.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Сразу оговорюсь, что статья будет полезна не своей технической базой, а тем, что я озвучу несколько неочевидных моментов, не знать о которых могли даже самые прожженные дизайнеры. В основном конечно будет полезно начинающим, но и остальным рекомендую прочитать. Поехали!

Формат имеет значение

Да, начнём с простого. Midjourney стандартно делает картинки в квадратном формате, но с помощью настройки "--ar" вы можете менять пропорции изображения. Так вот, зачастую происходит так, что от пропорций зависит не только формат изображения, но и непосредственно генерация. Во-первых, изображения с горизонтальными пропорциями чаще всего получаются более динамичными, а изображения с вертикальными – статичными, но с большей симметричностью. Квадратные же пропорции хороши для получения точечной композиции с одним главным объектом, зачастую с закрытой композицией. Самое интересное тут то, что порой результаты на пропорциях 1:1 и допустим 3:2 могут в корне отличаться.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами
Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Это связывают с тем, что нейросеть обучали именно на квадратных картинках, поэтому формат играет важную роль

Изменить пропорции — это первое что вы должны сделать, если не смогли получить нужный результат

Следи за языком

Нейросети, в первую очередь, это языковые модели. Они переводят язык в набор чисел/параметров и обратно, и вот так сюрприз, но роботу важно, что вы пишете.

Пример из личного опыта: мне нужно было сгенерировать маленький кассовый аппарат, такой, который есть в каждой пятёрочке на кассе, но почему-то Жора по запросу cash machine отказывался его делать. Вместо него он предлагал мне большие коробки в духе банковских терминалов. Я изменил промт на «portable cash machine», но и это не помогло. Еще немного поресёчив в гугл картинках я обратил внимание, что такие аппараты так же именуются как "cash register" – название не очевидное, но это сработало. Дальше я уже довольный генерил себе кассовые аппаратики одни за другими. И таких ситуаций было огромное множество. Даже когда вы уверены в своём знании английского языка — перепроверяйте себя

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Не упирайтесь в одно словесное определение объекта или явления, проверьте, нельзя ли назвать его как-то по другому, и возможно это тоже улучшит ваши генерации

Важен контекст

Чем проще промт тем лучше вас поймёт нейросеть, правда? Всё так, но далеко не всегда. Некоторые стили или комбинации слов путают нейросеть и она не совсем понимает что вам от неё нужно.
Например, если вы хотите сделать генерацию в стиле Balenciaga, то наиболее разумным будет не просто написать "Balenciaga style", а уточнить что вам нужно. Например: "кадр из показа мод Balenciaga", или не "персонаж в стиле Balenciaga", а "персонаж в костюме designed by Balenciaga"

В общем, нейросети нужно добавлять контекста. Ниже очень четкий пример того, как его отсутствие испортило всю генерацию. В первом варианте без контекста MJ генерировал изображения с самим процессом решения теста, но как только мы внесли контекст, то сразу же получили нужный нам результат, где дизайнер, решающий тест, изображен в нужной стилистике.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Тут, конечно, главное не увлекаться, потому что правило "чем сложнее промпт, тем хуже вас поймет нейросеть" всё ещё может работать. Стоит отказаться от абстрактных промтов в духе "нарисуй мне картинку которая подойдет для блога в социальных сетях" — Midjourney и так знает, что его задача нарисовать а не спеть, его для этого и создали, и ему плевать где и как вы будете использовать эту картинку, это уточнение никак не поможет ему понять запрос или сделать его лучше, так что пишите непосредственно запрос, без «нарисуй» без «пожалуйста» и т.д.

Каждое слово в вашем запросе это токен, и нейросеть обращает на него внимание.

Итерационность

Для одной из последних наших статей мне нужно было сгенерировать человека на собеседовании с роботом. Задача в целом не из сложных, но нам нужно было придерживаться определенной стилистики, а роботы должны были быть человекоподобны, не агрессивные и не пугающие. Вдобавок композиция не получалась такой хорошей, какой она была при генерации просто двух людей. Я решил пойти через итерации, и для начала сгенерировал картинку с обычными людьми.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Отправив её в Midjourney в качестве референса я уже дописал, что один из них должен быть роботом. Из 4-х результатов только в одном MJ нарисовал вместо человека робота, но вышло не особо годно.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Я пошел на третий круг. Взяв уже новую картинку за реф я снова ввел тот же самый промт, и вот на его основе MJ выдал прям то что было нужно.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Не пытайтесь получить все сразу, помогайте нейросетям помочь вам с помощью рефов, и подходите к этому процессу итерационно

Модели

С каждым новым обновлением разработчики добавляют в Midjourney новые функции и модели, между которыми можно переключаться (на момент написания статьи актуальная модель v5.2). В ходе этих обновлений различные внутренние параметры меняются, от чего где-то нейросеть лучше понимает запросы, а где-то наоборот хуже. Заявлено, что версия 5.2 умеет лучше в "фотореализм", и это правда, но периодически нейросеть перестает вести себя как мы привыкли и уходит в какие-то левые стилистики, даже если "photo" и "realistic" прописывать в самом промте. Вот например таких реалистичных людей Жора генерировал на версии 5.2

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

а потом, в один прекрасный день, Midjourney начал выдавать не реалистичные, сильно стилизованные изображения как на примере ниже.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Проблема исчезала при переключении на предыдущую версию 5.1.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Не стоит останавливаться на использовании только лишь новой последней модели – экспериментируйте и со старыми, возможно именно они помогут вам добиться более удачного результата

Экспериментируй

Большинство статей про Midjourney выглядят как пересказ параметров из мануала, читать и запоминать которые начинающему пользователю совершенно не хочется, и я его понимаю — сам помню только половину. И всё же в мануале много полезного, а некоторые настройки позволяют вам экспериментировать. Например параметр "--weird" который прямо заточен под эксперименты и буквально добавляет вашим генерациям "странности".

Помимо него выделю те параметры, на которых стоит заострить особое внимание:

--s
--stylize
--chaos
--remix
--iw
Прочитать про них подробнее и узнать как пользоваться можно в разделе Parameters документации Midjourney.

Помимо этого на своём опыте хочу добавить что модель niji, которая рисует в стиле аниме способна привнести художественности и уникальности вашим генерациям даже если вы ничего связанного с аниме не запрашиваете, чем тоже настоятельно рекомендую пользоваться.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами
Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Невозможное невозможно

Нейросадисты, которые любят челенджи, в случае если у вас что-то не получится, скорее всего скажут что руки у вас растут не из анатомически правильных мест, и даже иногда будут правы. Однако в условиях ограниченного срока, когда главной задачей мы ставим не "сделать именно в нейросетке" а "сделать быстро и качественно", не зазорно будет прибегать к вспомогательным, привычным нам инструментам, а не до 12-ти ночи подбирать нужный промт. Так например большинство картинок полученных в Midjourney я почти всегда цветокорю в ФШ, замазываю там лишние детали, иногда правлю пластику объектов, а иногда вовсе делаю коллажи из нескольких картинок, получая уже нужный результат который не стыдно отправить в продакшен.

Помимо постобработки так же есть вариант делать скетчи до генерации в Midjourney и отправлять их в качестве референса. Рассказываю как мне это помогло:

Задача — сгенерировать "робота за компьютером" в стиле Gemma Correll. Проблема в том, что Gemma Correll видимо никогда не рисовала роботов, по крайней мере таких, которые нужны были нам, и в целом её стиль имеет характерные детали, генерируя которые Midjourney отходит от моего запроса "сгенерировать робота". В общем, как и в примере с итерационностью, я решил человека превратить в робота, но в этот раз своими руками

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Я открыл фотошоп, и в полученной выше картинке сам схематично превратил человека в робота, добавив ему шарниров и перекрасив в серый цвет.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Затем я снова вернулся в Midjourney и дал тот же самый запрос, но в качестве входного изображения отправил свой скетч. Проблема моментально решена.

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Нейросети сейчас не на том уровне, чтобы выполнить ваш запрос с точностью до каждой детали. Особенно в случаях когда ваш запрос узконаправлен. Именно поэтому не стоит требовать у нейросетей невозможное.

Понять какие задачи с их помощью решить возможно а какие нет вы сможете только с опытом

Заключение

Это была основная часть советов которые я бы хотел получить в самые первые месяцы работы с нейросетями, так что надеюсь они и правда были вам полезны.

Как можете видеть — полностью заменить дизайнера нейросеть всё ещё не способна. Многие скажут что она способна заменить джуна, но и тут я бы поспорил: кажется что Арт Директору или Дизайнеру Сеньёру гораздо проще поставить задачу джуну чем самому сидеть и тратить время на работу в Нейросетках, но тут я буду рад дискуссии в комментариях.

Ну а в следующей статье мы с вами разберемся как отключить скайнет и обезвредить роботов из будущего. Подписывайтесь на меня тут и в телеграме:

5353
9 комментариев

О, с пропорциями и правда было не очевидно О_О Спсибо, теперь буду знать )

2
Ответить

Статья огонь! Баловался с миджорней полгода назад, но так и не нашел причин купить подписку. Круто, что многим эта нейронка помогает

1
Ответить

У нас это уже чуть ли не полноценный наш коллега) Даже если хотим делать что-то не в нейросетях он помогает сгенерить референсы и найти нужный стиль

Ответить

Очень полезная статья! Спасибо

1
Ответить

Stable Diffusion в последних итерациях достигает удивительного. Минус большо в том, что требует видеокарту от 6гигабайт, а еще замысловатый интерфейс. Но огромный плюс в том, что есть море стилей, которые можно скачивать и ставить, не боясь что новый апдейт сломает рисовку

Советы
- ставить лучше через Stability Matrix - мегапакет, который позволяет ставить конкретные интерфейсы и модели
- на civitai можно посмотреть стили (встроенный браузер есть в Stability Matrix и скачивать проще через него, но через обычный браузер проще посмотреть детали)
- ориентируйтесь SDXL (слухи об ограниченности давно в прошлом, научили рисовать, что угодно, включая порно и редких художников)

минус, повторюсь в начальном этапе освоения интерфейса. Но зато независимость и все файлы сразы на своей машине

Мои примеры иллюстраций (я не дорабатывал детали, так что если увидите косяк - я просто не парюсь над мелочами и не художник)

1
Ответить

если использовать SD для работы и конкретного результата, там тоже куча нюансов

Ответить

Крутые советы! Я каждый день работаю в нейросетях, и все равно нашла много полезного

1
Ответить