Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Привет. Я работаю дизайнером в Диджитал Агентстве JetStyle — оформляю наши социальные сети, статьи, различные конкурсные площадки, в общем отвечаю за визуальную составляющую наших коммуникаций. В Августе 2022-го года мы решили, что оформить статью на VC с помощью Midjourney это офигенный план. Опыт был невероятный, но повторять его не хотелось еще очень долгое время. Однако нейросети обновлялись, и неизбежно проникали в нашу дизайнерскую деятельность. С тех пор мы сделали множество визуалов, как статичных, так и в последствии анимированных. Работали в Midjourney, Stable Diffusion, Dall-E, SkyBoxAI, Gen2, Pika Labs и множестве других AI сервисах. Первым, конечно, пользуемся чаще, и не всегда только для работы, но и чтобы мемов к пятнице наделать. В общем, про Жору (так мы его ласково называем) я сегодня и расскажу, а точнее про то, как упростить себе работу с ним в тандеме.

Сразу оговорюсь, что статья будет полезна не своей технической базой, а тем, что я озвучу несколько неочевидных моментов, не знать о которых могли даже самые прожженные дизайнеры. В основном конечно будет полезно начинающим, но и остальным рекомендую прочитать. Поехали!

Да, начнём с простого. Midjourney стандартно делает картинки в квадратном формате, но с помощью настройки "--ar" вы можете менять пропорции изображения. Так вот, зачастую происходит так, что от пропорций зависит не только формат изображения, но и непосредственно генерация. Во-первых, изображения с горизонтальными пропорциями чаще всего получаются более динамичными, а изображения с вертикальными – статичными, но с большей симметричностью. Квадратные же пропорции хороши для получения точечной композиции с одним главным объектом, зачастую с закрытой композицией. Самое интересное тут то, что порой результаты на пропорциях 1:1 и допустим 3:2 могут в корне отличаться.

Это связывают с тем, что нейросеть обучали именно на квадратных картинках, поэтому формат играет важную роль

Изменить пропорции — это первое что вы должны сделать, если не смогли получить нужный результат

Нейросети, в первую очередь, это языковые модели. Они переводят язык в набор чисел/параметров и обратно, и вот так сюрприз, но роботу важно, что вы пишете.

Пример из личного опыта: мне нужно было сгенерировать маленький кассовый аппарат, такой, который есть в каждой пятёрочке на кассе, но почему-то Жора по запросу cash machine отказывался его делать. Вместо него он предлагал мне большие коробки в духе банковских терминалов. Я изменил промт на «portable cash machine», но и это не помогло. Еще немного поресёчив в гугл картинках я обратил внимание, что такие аппараты так же именуются как "cash register" – название не очевидное, но это сработало. Дальше я уже довольный генерил себе кассовые аппаратики одни за другими. И таких ситуаций было огромное множество. Даже когда вы уверены в своём знании английского языка — перепроверяйте себя

Не упирайтесь в одно словесное определение объекта или явления, проверьте, нельзя ли назвать его как-то по другому, и возможно это тоже улучшит ваши генерации

Чем проще промт тем лучше вас поймёт нейросеть, правда? Всё так, но далеко не всегда. Некоторые стили или комбинации слов путают нейросеть и она не совсем понимает что вам от неё нужно.
Например, если вы хотите сделать генерацию в стиле Balenciaga, то наиболее разумным будет не просто написать "Balenciaga style", а уточнить что вам нужно. Например: "кадр из показа мод Balenciaga", или не "персонаж в стиле Balenciaga", а "персонаж в костюме designed by Balenciaga"

В общем, нейросети нужно добавлять контекста. Ниже очень четкий пример того, как его отсутствие испортило всю генерацию. В первом варианте без контекста MJ генерировал изображения с самим процессом решения теста, но как только мы внесли контекст, то сразу же получили нужный нам результат, где дизайнер, решающий тест, изображен в нужной стилистике.

Тут, конечно, главное не увлекаться, потому что правило "чем сложнее промпт, тем хуже вас поймет нейросеть" всё ещё может работать. Стоит отказаться от абстрактных промтов в духе "нарисуй мне картинку которая подойдет для блога в социальных сетях" — Midjourney и так знает, что его задача нарисовать а не спеть, его для этого и создали, и ему плевать где и как вы будете использовать эту картинку, это уточнение никак не поможет ему понять запрос или сделать его лучше, так что пишите непосредственно запрос, без «нарисуй» без «пожалуйста» и т.д.

Каждое слово в вашем запросе это токен, и нейросеть обращает на него внимание.

Для одной из последних наших статей мне нужно было сгенерировать человека на собеседовании с роботом. Задача в целом не из сложных, но нам нужно было придерживаться определенной стилистики, а роботы должны были быть человекоподобны, не агрессивные и не пугающие. Вдобавок композиция не получалась такой хорошей, какой она была при генерации просто двух людей. Я решил пойти через итерации, и для начала сгенерировал картинку с обычными людьми.

Отправив её в Midjourney в качестве референса я уже дописал, что один из них должен быть роботом. Из 4-х результатов только в одном MJ нарисовал вместо человека робота, но вышло не особо годно.

Я пошел на третий круг. Взяв уже новую картинку за реф я снова ввел тот же самый промт, и вот на его основе MJ выдал прям то что было нужно.

Не пытайтесь получить все сразу, помогайте нейросетям помочь вам с помощью рефов, и подходите к этому процессу итерационно

С каждым новым обновлением разработчики добавляют в Midjourney новые функции и модели, между которыми можно переключаться (на момент написания статьи актуальная модель v5.2). В ходе этих обновлений различные внутренние параметры меняются, от чего где-то нейросеть лучше понимает запросы, а где-то наоборот хуже. Заявлено, что версия 5.2 умеет лучше в "фотореализм", и это правда, но периодически нейросеть перестает вести себя как мы привыкли и уходит в какие-то левые стилистики, даже если "photo" и "realistic" прописывать в самом промте. Вот например таких реалистичных людей Жора генерировал на версии 5.2

а потом, в один прекрасный день, Midjourney начал выдавать не реалистичные, сильно стилизованные изображения как на примере ниже.

Проблема исчезала при переключении на предыдущую версию 5.1.

Не стоит останавливаться на использовании только лишь новой последней модели – экспериментируйте и со старыми, возможно именно они помогут вам добиться более удачного результата

Большинство статей про Midjourney выглядят как пересказ параметров из мануала, читать и запоминать которые начинающему пользователю совершенно не хочется, и я его понимаю — сам помню только половину. И всё же в мануале много полезного, а некоторые настройки позволяют вам экспериментировать. Например параметр "--weird" который прямо заточен под эксперименты и буквально добавляет вашим генерациям "странности".

Помимо него выделю те параметры, на которых стоит заострить особое внимание:

--s
--stylize
--chaos
--remix
--iw
Прочитать про них подробнее и узнать как пользоваться можно в разделе Parameters документации Midjourney.

Помимо этого на своём опыте хочу добавить что модель niji, которая рисует в стиле аниме способна привнести художественности и уникальности вашим генерациям даже если вы ничего связанного с аниме не запрашиваете, чем тоже настоятельно рекомендую пользоваться.

Нейросадисты, которые любят челенджи, в случае если у вас что-то не получится, скорее всего скажут что руки у вас растут не из анатомически правильных мест, и даже иногда будут правы. Однако в условиях ограниченного срока, когда главной задачей мы ставим не "сделать именно в нейросетке" а "сделать быстро и качественно", не зазорно будет прибегать к вспомогательным, привычным нам инструментам, а не до 12-ти ночи подбирать нужный промт. Так например большинство картинок полученных в Midjourney я почти всегда цветокорю в ФШ, замазываю там лишние детали, иногда правлю пластику объектов, а иногда вовсе делаю коллажи из нескольких картинок, получая уже нужный результат который не стыдно отправить в продакшен.

Помимо постобработки так же есть вариант делать скетчи до генерации в Midjourney и отправлять их в качестве референса. Рассказываю как мне это помогло:

Задача — сгенерировать "робота за компьютером" в стиле Gemma Correll. Проблема в том, что Gemma Correll видимо никогда не рисовала роботов, по крайней мере таких, которые нужны были нам, и в целом её стиль имеет характерные детали, генерируя которые Midjourney отходит от моего запроса "сгенерировать робота". В общем, как и в примере с итерационностью, я решил человека превратить в робота, но в этот раз своими руками

Я открыл фотошоп, и в полученной выше картинке сам схематично превратил человека в робота, добавив ему шарниров и перекрасив в серый цвет.

Затем я снова вернулся в Midjourney и дал тот же самый запрос, но в качестве входного изображения отправил свой скетч. Проблема моментально решена.

Нейросети сейчас не на том уровне, чтобы выполнить ваш запрос с точностью до каждой детали. Особенно в случаях когда ваш запрос узконаправлен. Именно поэтому не стоит требовать у нейросетей невозможное.

Понять какие задачи с их помощью решить возможно а какие нет вы сможете только с опытом

Это была основная часть советов которые я бы хотел получить в самые первые месяцы работы с нейросетями, так что надеюсь они и правда были вам полезны.

Как можете видеть — полностью заменить дизайнера нейросеть всё ещё не способна. Многие скажут что она способна заменить джуна, но и тут я бы поспорил: кажется что Арт Директору или Дизайнеру Сеньёру гораздо проще поставить задачу джуну чем самому сидеть и тратить время на работу в Нейросетках, но тут я буду рад дискуссии в комментариях.

Ну а в следующей статье мы с вами разберемся как отключить скайнет и обезвредить роботов из будущего. Подписывайтесь на меня тут и в телеграме:

t.me

Лёша и Нейроовцы

Год работал в Midjourney над внутренними задачами агентства. Делюсь действительно полезными советами

Формат имеет значение

Следи за языком

Важен контекст

Итерационность

Модели

Экспериментируй

Невозможное невозможно

Заключение