Школа Midjourney: урок "как правильно писать промты". Cпойлер: делюсь промтами + 1 крутое упражнение, улучшающее промты

Мы очень много работаем с ИИ. И в частности — с Midjourney. Нам часто пишут примерно один и тот же вопрос: «У вас получаются очень интересные и очень красивые иллюстрации. Как вы это делаете?».

Автор текста — создатель телеграм-канала "Нейронутые". Здесь — самые крутые креативы, очень много лайфхаков, полезные эфиры о будущем ИИ и много других ярких историй. А еще у меня есть курс по Midjourney.

Мы отвечаем: «мы не делимся своими промтами. Ведь они — как главный ингредиент в изображении, которое вас вдохновило. Сутки за сутками мы проводим в экспериментах, чтобы найти «тот самый» промт и представить на ваш суд изображение, которое вас так вдохновляет.

Мы любим создавать яркие и необычные работы.

Дочитайте до конца: промтами я все же поделюсь.

Листая соцсети, я увидел очередной «суперзаряженный» промт на полстраницы и решил написать пост о том, как работать с промтами.

portrait of indian village woman at a gathering in the forests of Himachal Pradesh, Cinematic, Photoshoot, Shot on 25mm lens, Depth of Field, DOF, Tilt Blur, Shutter Speed 1/1000, F/22, White Balance, 32k, Super-Resolution, Megapixel, Pro Photo RGB, VR, Lonely, Good, Massive, Half rear Lighting, Backlight, Dramatic Lighting, Incandescent, Optical Fiber, Moody Lighting, Cinematic Lighting, Studio Lighting, Soft Lighting, Volumetric, Conte-Jour, Beautiful Lighting, Accent Lighting, Global Illumination, Screen Space Global Illumination, Ray Tracing Global Illumination, Optics, Scattering, Glowing, Shadows, Rough, Shimmering, Ray Tracing Reflections, Lumen Reflections, Screen Space Reflections, Diffraction Grading, Chromatic Aberration, GB Displacement, Scan Lines, Ray Traced, ray Tracing Ambient Occlusion, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, OpenGL-Shaders, GLSL-Shaders, Post Processing, Post-Production, Cell Shading, Tone Mapping, CGI, VFX, SFX, insanely detailed and intricate, hyper maximalist, elegant, super detailed, dynamic pose, photography, volumetric, ultra-detailed, intricate details, 8K, super detailed, ambient –uplight

Wow, подумал я, вот это терпение. Дописать до конца такой огромный промт — это достойно уважения. Вы, конечно же, хотите увидеть результат? Вот он:

Вполне неплохое изображение. Нужен ли такой длинный промт? Отвечу в этом разборе.

Я надел очки и стал читать слово за словом. И с каждым новым словом моя улыбка становилась все шире. Совершенно очевидно, что автор промта хотел добиться максимальной фотографичности изображения. Но зачем же СТОЛЬКО "умных" слов?

Проанализирую лишь одно слово: SFX. У него миллион знаений: звуковые эффекты, самораспаковывающийся архив, имя английского журнала о научной фантастике. А еще это аббревиатура от словосочетания Spread Firefox — из рекламной компании одноименного браузера.

И как, предполагал автор промта, Midjourney должна интерпретировать эти три буквы, применительно к генерации пожилой женщины из индийской деревне?

Правильно — никак. Mj версии "пять" (да и "четверка" тоже — я провел нижеописанный тест полностью в обеих версиях), умничка и просто проигнорировала это слово. Как и десятки других.

Когда вы дочитате эту статью я вам это докажу и вы поймете, как ПРАВИЛЬНО писать промты, не перегружая их «мусором», который совершенно не нужен. Шаг за шагом я произведу декомпозицию промта (это суперполезное упражнение я рекомендую провести с любым из ваших промтов), чтобы на примерах показать, что влияет на итоговую генерацию, а что нет. Более того, поймете, что принцип декомпозиции, о котором я пишу, работает и в обратном направлении.

«Промтостроение» — это искусство

Поэтому держим свои know how в тайне. Как повара — свои фирменные рецепты.

Возможно вы этого не заметили. Но началась новая «золотая лихорадка». Все устремились в цифровой Клондайк. Креативные агенства, пиарщики, простые люди, бренды — каждый хочет решить свою корыстную задачу, задействуя силу ИИ.

Но тут возникает главный облом — как сделать так, чтобы картинки отличались от всех остальных?

Тут-то и приходит понимание, что именно промты — «золото», не картинки. Промтостроитель — старатель, проводящий нудные часы на берегу цифровой реки, просеивая песок слов, чтобы найти золотой самородок: свое идеальное изображение.

Многие ошибочно думают, что с помощью ИИ легко получить то, что вы хотите, и поэтому в их представлении «рисование картинок в нейросетях» — мошенничество и кража чужой работы. Но в действительности, я вижу, как сеть наводнили однотипные изображения тех людей, которые пришли в Midjourney на хайпе и решили тоже «творить». Все картинки однотипные, скучные и однообразные, и именно из-за таких людей (которые не разобрались в том, как все работает), MJ незаслуженно обвиняют в том, что она рисует одинаковые картинки. Я уже писал и показывал примеры в стате «Все картинки от ИИ одинаковые!» Это полная чушь. И сейчас я вам это докажу.

Пчела. Mj V5. Итог экспериментов с углом съемки, крупностью плана и освещением.

Некоторые люди говорят, что искусство ИИ — это репликация чужих талантов, а не искусство. Для некоторых — это просто инструмент разочарованных творцов, чтобы смешать популярные культурные ценности или эстетику вместе в попытке получить «лайки» в соцсетях.

Некоторые говорят, что «ИИ-рисовалки» — средство для создания нереалистичных стандартов красоты, чтобы люди могли навязывать свои личные предпочтения в отношении привлекательности вымышленным людям, чтобы избежать взаимодействия с несовершенством в реальном мире.

Некоторые говорят, что это шанс для тех, у кого нет воображения, наступить на плечи творческих гениев, которые десятилетиями осваивали мастерство, стремились создать собственный бренд.

Но все в действительности не так просто.

Я уверен, что инженер промтов — карьера будущего. Поезд уже отходит и скоро наберет очень большую скорость. Но места в вагонах пока еще есть.

А на каждый из вышеперечисленных пунктов я отвечу — нет. Я говорю: «Люди, работающие ИИ, сами по себе творцы. Мы используем развивающиеся технологии, чтобы расширить границы нашего собственного безграничного воображения».

Работа над проптом требует времени и обучения — как и со всеми инструментами, физическими или цифровыми. Итак, нейропоезд уже отходит — на большой скорости — но еще есть место для многих людей. Я предпочитаю быть в поезде, даже если он сойдет с рельсов.

Я приглашаю всех попробовать и убедиться на личном опыте, что все не так просто. Необязательно платить — та же Midjourney дает бесплатные 25 изображений для теста. Есть бесплатные ИИ.

Если вы хотите научиться лучше работать в Midjourney и делать более крутые изображения, прочтите статью «Все, что я хотел бы знать о Midjourney до того, как начал создавать изображения».

Переходим к декомпозиции промта и разбираемся, как все работает

А теперь обещанное. Я расскажу, как можно работать с промтами и отсеивая все лишнее.

Итак, вернемся к промту в начале. Вы удивитесь, но такого же качества можно добиться лишь 1 «ключом» (одним параметром в промте) и сейчас я вам это докажу. Но давайте разберемся с тем, как писать промты.

В начале этот статьи, я привел огромный промт. Сейчас я возьму скальпель своего знания и начну резать его слово за словом. Для начала выкинем весь откровенный мусор и увидим ничего не меняется (за исключением лица, что естественно). После выброса "заумных" терминов, у нас остался такой промт:

portrait of Indian village woman at a gathering in the forests of Himachal Pradesh , Cinematic, Photoshoot, Shot on 25mm lens, Depth of Field, Tilt Blur, Shutter Speed 1/1000, F/22, White Balance, 32k, Super-Resolution, Pro Photo RGB, Half rear Lighting, Backlight, Dramatic Lighting, Incandescent, Soft Lighting, Volumetric, Conte-Jour, Global Illumination, Screen Space Global Illumination, Scattering, Shadows, Rough, Shimmering, Lumen Reflections, Screen Space Reflections, Diffraction Grading, Chromatic Aberration, GB Displacement, Scan Lines, Ambient Occlusion, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, OpenGL-Shader’s, Post Processing, Post-Production, Cell Shading, Tone Mapping, CGI, VFX, SFX, insanely detailed and intricate, hyper maximalist, elegant, dynamic pose, photography, volumetric, ultra-detailed, intricate details, super detailed, ambient --uplight --v 4 --q 2

Режем дальше:

portrait of an indian village woman in forest in Himachal pradesh, clear facial features, Cinematic, 35mm lens, f/1.8, accent lighting, global illumination.

Чуть видоизменяем

portrait of indian village woman at a gathering in the forests, digital photograph, soft natural light, 50mm lens, f1.8 aperture.

Упрощаем дальше:

portrait of indian village woman in the forests, digital photograph, soft natural light, 50mm lens, f1.8 aperture

А что если отрезать еще кусок и убрать 1.8 Aperture?:

portrait of indian village woman in the forests, digital photograph, soft natural light, 50mm lens

А теперь избавимся от 50mm lens:

portrait of indian village woman in the forests, digital photograph, soft natural light

Следующим шагом пустим под нож параметр soft natural light.

portrait of indian village woman in the forests, digital photograph

Ничего не меняется. Кэп, что случилось?! :-)))

Отрезаем digital photograph

portrait of indian village woman in the forests

Отрезаем in the forests.

portrait of indian village woman

И только на этом этапе мы видим значимое изменение. Поменялись цвета изображения. Параметр in the forests задавал "зеленые оттенки". Поэтому, если бы мы захотели увидеть женщину в красном, мы должны были бы написать:

portrait of indian village woman in red dress the forests

Проверим резульльтат этого промта (да, все рабтает):

Но давайте продолжим резать исходный промт. Мы же решили действовать радикально. Так что мы оставим только:

indian village woman

Ну и как тебе такое, Илон Маск?

Проанализируем, с чего мы начали и к чему пришли. Было:

portrait of indian village woman at a gathering in the forests of Himachal Pradesh, Cinematic, Photoshoot, Shot on 25mm lens, Depth of Field, DOF, Tilt Blur, Shutter Speed 1/1000, F/22, White Balance, 32k, Super-Resolution, Megapixel, Pro Photo RGB, VR, Lonely, Good, Massive, Half rear Lighting, Backlight, Dramatic Lighting, Incandescent, Optical Fiber, Moody Lighting, Cinematic Lighting, Studio Lighting, Soft Lighting, Volumetric, Conte-Jour, Beautiful Lighting, Accent Lighting, Global Illumination, Screen Space Global Illumination, Ray Tracing Global Illumination, Optics, Scattering, Glowing, Shadows, Rough, Shimmering, Ray Tracing Reflections, Lumen Reflections, Screen Space Reflections, Diffraction Grading, Chromatic Aberration, GB Displacement, Scan Lines, Ray Traced, ray Tracing Ambient Occlusion, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, OpenGL-Shaders, GLSL-Shaders, Post Processing, Post-Production, Cell Shading, Tone Mapping, CGI, VFX, SFX, insanely detailed and intricate, hyper maximalist, elegant, super detailed, dynamic pose, photography, volumetric, ultra-detailed, intricate details, 8K, super detailed, ambient –uplight

Стало:

indian village woman

Тут я не могу не добавить: LOL.

Все генерации сделаны в Midjourney v5. Точно такой же эксперимент я провел в версии 4. И могу сделать однозначное утрвеждение: новая версия заточена делать фотографии прямо из коробки. Если вы хотите сделать стилизацию (под иллюстрацию, и тд) — это теперь НУЖНО указывать в промте обязательно. Если же вы хотите сделать фото — стало проще.

В четвертой версии занчимые изменения случились на этапе, когда я убрал из этого промта — portrait of indian village woman at a gathering in the forests, f1.8 aperture — параметр "f1.8 aperture". Фотография стала иллюстрацией. В "пятерке" все не так.

Итак. Этот пример декомпозиции промта я привел для того, чтобы вы поняли, что простые промты — самые крутые промты. Об этом я уже писал в этой очень важной статье: "Все, что я хотел бы знать о Midjourney до того, как начал создавать изображения".

Как я уже писал выше, процесс декомпозиции можно (и нужно) проводить в обратном порядке, нанизывая новые данные на промт и анализируя, как меняется изображение.

Если же говорить о формуле промта, то вот, итоговое резюме:

Промты стоит писать по такой формуле:

[ОБЪЕКТ] [ЛОКАЦИЯ] [ПАРАМЕТРЫ ОСВЕЩЕНИЯ] [ТЕХНИЧЕСКИЕ ПАРАМЕТРЫ — такие, как --ar 16:9 и т.д.]

Творите, ищите свои промты, и не выпрашивайте промты у других. Как я уже написал в самом начале статьи: создавать промты — это искусство.

Автор текста — создатель телеграм-канала "Нейронутые". Здесь — самые крутые креативы, очень много лайфхаков, полезные эфиры о будущем ИИ и много других ярких историй.

0
17 комментариев
Написать комментарий...
Zazem Nett

не соглашусь, с точки зрения женщина Индии вроде как Женщина Индии, вот только изменения есть.
В фотографии есть понятие качественная оптика, а из неё следует рисунок фотографии.
И если первая фотография больше похожа на настоящее фото, с тенями, с красивым софт фокусом, с мягкой резкостью, то последняя фото, это словно фотография снятая начинающим, который боится перепадов яркостей, предпочитает чтобы всё было резким и контрастным..
Скажем так первое фото "снятое" профессионалом
И последнее фото "снятое" начинающим любителем

Если внимательно присмотреться, то в первом фото нет цифровой резкости, а в последней эта резкость явно искусственная задранная

Ответить
Развернуть ветку
Егор Апполонов
Автор

Последняя фото совершенно прекрасная как стартовая точка. И я привел весь этот путь декомпозиции для понимания, что промты можно строить в обратную сторону. Хотите добавить резкости? indian village woman + параметр резкости + еще что-то и так далее.

Ответить
Развернуть ветку
Zazem Nett

как раз на мой взгляд всё ровно наоборот, последняя фотография как бы это помягче - плохая картинка, к фотографии ничего общего не имеющееся.

учитывая что сейчас многие фотографируют на телефоны, и вот такая резкость и такой фон как на последней очень распространён.

Сам принцип понятен, но скорее человек первого промта более верно понимает что такое фотография.

Ответить
Развернуть ветку
Svetlana Kruglikova

Похоже, наоборот, автор первого промта не понимает техническую сторону фотографии))) Или же решил поиздеваться над MJ, напихав в промт кучу противоречивых терминов без смысла, и посмотреть, как отреагирует нейросеть. Нейросеть проигнорировала 90 процентов информации промта. Например, 25mm lens - широкоугольная оптика и, как правило, не используется для съемки классического портрета, так как искажает лицо. Рисунок созданного портрета соответствует длиннофокусной оптике (например, 85 мм). При использовании диафрагмы F/22 мы бы получили большую глубину резкости - соответственно, фон был бы намного более резким, так же как и детали одежды вне плоскости фокусировки. Нейросеть предпочла опереться на параметр "портрет" и размыть фон, что более характерно для классического портрета. Если бы MJ использовала параметры из промта, мы бы получили экспрессивный портрет (в стиле вестерна, например). "Conte -Jour" (контровой свет) - вообще не присутствует в результате. "Studio Lighting" (студийный свет) - на фото имеем эффект солнечного света. "Incandescent" - эффект освещения от лампы накаливания. При чем тут индийская женщина в лесу?))) В промте перечислены почти все эффекты освещения без смысла, даже если они противоречат друг другу. Dynamic pose - опять экшн стиль. На фото статичная, расслабленная поза. White Balance - это просто параметр, который без уточнения характеристик не имеет смысла. Scan Lines - эффект "экрана" телевизора или монитора. При чём тут? Сеть "начхала" на это пожелание в промте, как и на большинство других)))
Более "художественный" результат получился, вероятнее всего, благодаря размытым, творческим характеристикам типа Cinematic или Moody Lighting, Dramatic Lighting. Спасибо автору за полезный пост!

Ответить
Развернуть ветку
Zazem Nett

Даже если учесть всю вашу критику, на мой взгляд, первое фото, значительно лучше, вернее единственное хорошее из всех представленных.
Например: на последней картинке с самым простым промтом, отвратительная цифровая резкость, отсутствия боке, оно не только некрасивое, оно бестолковое, такое боке делается когда задний фон размывают в фотошопе. Дальше на последней картинке присутствуют паразитные ореолы вокруг контура головы.
Также видна плюшевая ретушь лица. А ещё полностью отсутствует то, ради чего изобреталась фотография, и очень многие позабыли второе название: светопись....

Вполне возможно, кое-что и было лишнее, но судя по тому как автор убирал части слов из промта, ни в одной картинке, которую он представил, даже близко не похоже по уровню светописи и качества похожести на хорошую оптику....

Ответить
Развернуть ветку
Егор Апполонов
Автор

Понимает. Но используя этот мусор :-) Почитайте, что тут написано5

Screen Space Global Illumination,
Ray Tracing Global Illumination,
Optics,
Scattering,
Glowing,
Shadows,
Rough,
Shimmering,
Ray Tracing Reflections,
Lumen Reflections,
Screen Space Reflections,
FKAA,
TXAA,
RTX,
SSAO,

Ответить
Развернуть ветку
Dmitrii Prikhodko

Первая фотография похожа на упражнения фотолюбителя с ползунками в фотошопе в режиме "Максимум". К фотографии такие пережженные картинки не имеют отношения. А уж о качественной оптике было очень смешно читать.

Ответить
Развернуть ветку
Zazem Nett

безусловно интересно читать ваше мнение, но какое отношение имеет ИИ к фотографии и оптике.

Чем разбрасываться словами, лучше возьмите скачайте первую и последнюю. Имеющий глаза, да увидит.

К тому же трудно мне оценить о чём вы написали и от качества и какой оптики вы отталкивались при написании своего комментария.
От Айфона? и там крутили ползунки?

Ответить
Развернуть ветку
Dmitrii Prikhodko

Мне тоже трудно сказать, от какой именно оптики я отталкивался )) По 2 причинам: а) это Вы писали про качественную оптику по сгоревшей в фотошопе картинке. Какая там после этого может быть оптика - для меня загадка б) я пользовался разной оптикой — в моменте доходило до 17 фотоаппаратов от 9 систем, а брендов по оптике еще больше. Ползунками не пользуюсь )

Ответить
Развернуть ветку
Zazem Nett

если первая фотография похожа на упражнения фотолюбителя с ползунками в фотошопе в режиме "Максимум"

то на, что похожа последняя

Ответить
Развернуть ветку
Dmitrii Prikhodko

на фотографию )

Ответить
Развернуть ветку
Zazem Nett

тогда с уверенностью могу сказать, что Вы лжёте и не краснеете.
Ложь: я пользовался разной оптикой — в моменте доходило до 17 фотоаппаратов от 9 систем, а брендов по оптике еще больше. Ползунками не пользуюсь )

как правило фотограф сидит на оптике той системы, маркой фотоаппарата которой пользуется.

естественно, если у вас Соня и переходники на разную оптику.
.
Но вы тогда богатый человек. Или транжира

Ответить
Развернуть ветку
Zazem Nett

многие термины мне не понятны, особенно последние, но вот верхние скорее всего, он применял для свечения, а так как вы правильно заметили, что нейросеть это машина, то ей надо как можно больше параметров для того что понять что от неё хотят.

Но я не слишком хорошо разбираюсь, но по моему опыту начинаешь с простого, а заканчиваешь не совсем маленьким промтом, но всё же не таким огромным как вы привели в пример

Ответить
Развернуть ветку
Адам Ньюман

Классный пост. Впервые читаю на русском языке вот эту американскую подачу с анонсоми вроде "в пятой главе мы остановимся на этом подробнее", яркими подводами к выводам и т.д.

В общем, информативно и увлекательно.

Ответить
Развернуть ветку
Дмитрий Ермилов (Dreamer-Soul)

Хорошая статья, действительно в 5 версии заметил что чем проще тем лучше.
Лучше выбрать не 35 разных взаимно исключающих модификаторов, а 2-3 самых основных, остальное MJ сам додумает.

а на портретах кстати очень хорошо ложиться модификатор cinematic lighting или backlight, ну или их сочетание :)

Мой результат: https://dropmefiles.com/GBuWD

Ответить
Развернуть ветку
Сибирцев Дмитрий

Худшая бесполезнейшая трата слов и времени прочитавшего

Ответить
Развернуть ветку
Евгений Савин

Болтологии больше, чем реальных знаний.

Ответить
Развернуть ветку
14 комментариев
Раскрывать всегда