Эксперимент: справится ли нейросеть Midjourney с подготовкой обложек для IT-блога так же хорошо, как дизайнер?

Многие восхищаются качеством иллюстраций, нарисованных нейронными сетями. Они находят неожиданные образы и подбирают яркие цвета. Но смогут ли нейросети взять на себя профильную задачу — создавать обложки для текстов технического блога? Мы протестировали Midjourney, в тексте делимся результатами и советами по работе.

Содержание:

Нейросеть для художников

Перед тем, как перейти к эксперименту, скажем пару слов о нейросетях и требованиях к запросам.

Поэкспериментировать с Midjourney может любой желающий. Достаточно подключиться к discord-каналу проекта. Каждому пользователю доступны 25 запросов.

Иная политика у конкурентного проекта — DALL-E: он бесплатен и не ограничивает в количестве запросов.

Сложно сказать, какая нейросеть показывает лучшие результаты. Как и DALL-E, Midjourney умеет рисовать не только потрясающие, но и непонятные и даже пугающие изображения.

Сравнение иллюстраций DALL-E 2 и Midjourney. Источник.

Как сформировать запрос для нейросети

При создании иллюстрации дизайнер думает о том, как лучше объединить разные элементы, которые прописаны автором в техническом задании. Аналогичным образом работает Midjourney.

Чтобы получить желаемый результат от нейронной сети, нужно корректно сформировать для нее запрос. Разработчики Midourney опубликовали советы о том, как правильно общаться с нейросетью. Выделим основные из них.

→ Пишите как для ребенка

Формулировки должны быть буквальными: без метафор, эвфемизмов, словесных каламбуров и прочего.

Неправильно: «Обезьяны занимаются бизнесом».

Правильно: «Обезьяны сидят в деловых костюмах».

Запросы лучше формировать на английском. Другие языки Midjourney понимает хуже.

→ Избегайте отрицаний

Представьте, что вам нужно выбрать одну дверь из тысячи — за ней будет сундук с золотом. Рядом стоит «помощник», который знает наверняка, где спрятаны богатства. Вы его спрашиваете, какую дверь нужно открыть, чтобы обогатиться. А помощник отвечает: «Точно не 178». Стала ли задача проще от его подсказки?

Если нужно, чтобы Midjourney нарисовала зонтик любого цвета, но не красного, попробуйте использовать отрицание. Разработчики утверждают, что языковые модели часто игнорируют отрицательные частицы, союзы и предлоги («не», «но», «кроме», «без»). Если нужен синий зонтик, напишите об этом прямо.

→ Забудьте про мелкие детали

Они могут перегрузить систему. Не нужно описывать количество морщин на морде обезьяны или число цветов в саду. Попробуйте описать черты или пейзаж одним или парой слов.

Пример генерации изображения

Чтобы сгенерировать изображение, нужно подключиться к каналу Discord, перейти в комнату newbies, ввести команду /imagine и написать свой запрос. В течение 10-30 секунд будет готова подборка из изображений.

Процесс генерации изображения по запросу «dinosaur».

Когда загрузка достигнет 100%, под коллажем появятся кнопки «U1, U2, U3, U4» и «V1, V2, V3, V4». Кнопки из первого ряда нужны для улучшения качества выбранных изображений — апскейлинга. А кнопки из второго ряда — для генерации картинок, «похожих» на выбранное изображение из подборки.

Тестирование Midjourney

Мы решили проверить, как к решению задач дизайнеров-иллюстраторов подойдет нейронная сеть. Похожий эксперимент провели ребята из SkillFactory: они проверили, может ли DALL-E помочь избавиться от дорогих стоковых иллюстраций.

Нам был важен не стиль рисовки, а композиция, которую может придумать Midjourney. Для этого выбрали три статьи из нашего блога и сформулировали запросы для обложек. Посмотрим, что получилось.

Обложка первая: кроличья нора

Недавно выпустили статью про долгий поиск и дебаг ошибки в мониторинге объектного хранилища. На обложке метафорично изображена кроличья нора с уходящими вглубь строчками кода, программными ошибками и разными пиктограммами. Разработчик конкретно закопался в абстракциях, и дизайнер это изобразил.

Мы протестировали несколько вариантов запросов.

Первый запрос: Rabbit hole with Python program code

Сначала попробовали описать для нейросети общую концепцию. Притом добавили: на изображении должен быть код на языке программирования Python.

Midjourney удалось повторить перспективу норы и даже нарисовать кролика. Но больше ничего общего с оригинальной обложкой нет.

Также нейросеть забавно интерпретировала упоминание языка программирования Python: на иллюстрациях встречаются текстуры, напоминающие чешую, и даже змеиные яйца.

Второй запрос: Python code in the rabbit hole and rabbit

Добавили отдельно кролика. Но нейросеть пошла дальше и нарисовала жуткого «лунтика», который вылупился из змеиного яйца.

Третий запрос: Program code in the rabbit hole and rabbit

Чтобы Midjourney не генерировала больше змееподобных кроликов, решили вычеркнуть упоминание Python. Написали проще: «программный код».

Нейросеть сгенерировала старые ЭЛТ-мониторы (первая и третья картинки). И если на второй картинке изображено что-то абстрактное, то на четвертой — чисто клон кролика из «Алисы в стране чудес».

Но откуда на первом изображении яйцо? Может, есть предположения? Делитесь идеями в комментариях.

Обложка вторая: коробка с котиками

Следующий этап тестирования — генерация обложки для статьи про машинное обучение на GPU в Managed Kubernetes.

Идея дизайнера: из коробки, символизирующей контейнер Kubernetes, вылетают картинки с котиками. Они сгенерированы в нейросети на GPU.

Первый запрос: Kubernetes container, photos with cats, machine learning, graphic processing unit

Сначала решили посмотреть, что придумает Midjourney, если просто перечислить ключевые элементы через запятую.

Что и следовало ожидать: нейросеть не знает, что такое Kubernetes и не слышала про контейнеры в IT.

Итог — картинка с контейнеровозом, контейнерный терминал, какие-то полки и фотография Мурзика.

Второй запрос: Box of pictures with cats

Когда поняли, что Midjourney не сумеет придумать композицию, решили составить простой запрос: «коробка с изображениями котов». На этот раз проблем не было, если не обращать внимание на странных котов.

Обложка третья: облако на тарелке

Казалось, ничего лучше нейросеть уже не покажет. К тому же, нужно было сгенерировать иллюстрацию по сложному концепту — разделение мощности виртуального процессора.

Дизайнеры подошли к вопросу творчески — нарисовали нарезанное облако на тарелке. Но что придумает нейросеть?

Запрос: Virtual CPU, power sharing, cloud operations, shared line

Расписывать всю идею натюрморта было бессмысленно. Запрос получился бы расплывчатым и слишком длинным. Поэтому «скормили» нейросети обычную последовательность из ключевых элементов.

Результат нас удивил. Палитра и зернистость некоторых изображений очень напомнили картинки, которые рисуют дизайнеры Selectel.

Правда осмысленная композиция есть только на первой иллюстрации. Кажется, что облако лежит на квадратной тарелке, которую мы даже не упоминали в запросе.

Результат

Нам стало интересно, что будет, если мы сгенерируем дополнительные варианты первой картинки. Для этого нажали на кнопку V1.

Особенно точно идея с нарезанным облаком передана на первой иллюстрации. Нажали на кнопку U1, улучшили качество изображения и получили иллюстрацию с еще большим градусом точности.

Считаем, что это — лучший результат.

Нейросеть — конкурент? Мнение ведущего дизайнера

«Нейронная сеть способна помочь в поиске концепций — подсказать вариант, который может направить мысль дизайнера в нетривиальное русло.

Но иллюстрации все равно нужно создавать дизайнерам. Ведь в работу человека вложено больше, чем в рандомный машинный рисунок. Мы продумываем целые сюжеты и метафоры, которые могут подкрепить блог компании смыслом и красотой. Пока только дизайнеры могут привлекательно отразить айдентику бренда»‎, — считает Алина Экизашвили, руководитель отдела дизайна Selectel.

Заменят ли нейросети дизайнеров — пока сказать сложно. Можно научить Midjourney и DALL-E делать иллюстрации в стилистике компании. Но если брендбук будет меняться, нейросети нужно будет переобучать на новых примерах, которые необходимо кому-то отрисовать. Сегодня (как и в обозримом будущем) кажется, фрилансер Midjourney в Selectel не понадобится.

Читайте также:

0
41 комментарий
Написать комментарий...
Григорий Матасов

Погодите, но те промпты, что вы скармливали нейросети противоречат рекомендациям по составлению запросов из начала статьи. Где ваши буквальные запросы как для ребёнка?

Ответить
Развернуть ветку
Selectel
Автор

В тексте приводим рекомендации от разработчиков нейросети. Они помогают понять, как "думает" система.
В нашем случае соблюдать эти советы на 100% сложно: мы компания со сложными техническими продуктами, нам нужно подбирать картинки под специфику и IT-темы.

Пробовали разные варианты и опытным путем выяснили, что в контексте нашего эксперимента лучше всего работают перечни ключевых элементов. Увы, пока Midjourney плохо интерпретирует выражения, подобные «программный код на Python».

Ответить
Развернуть ветку
Kate Moonfire

Не, ребят, у вас просто с английским беда.

Ответить
Развернуть ветку
Давно Зареган

Меня одного пугают картинки нейросетей? Не в смысле, что на них что-то страшное, а в смысле, что их продукт как бы имитирует результат человеческого труда. Жутко от этого.

Ответить
Развернуть ветку
Selectel
Автор

Вы правы, в этом что-то есть. Похоже, разработчики идут в правильном направлении. Некоторые сгенерированные картины сложно отличить от настоящих. Интересно, какие результаты будет показывать Midjourney через несколько лет...

Ответить
Развернуть ветку
Гуманитарный Данила

А почему жутко? Пугает, что человек не настолько уникален, как думал о себе и что его мыслительную деятельность можно отдаленно имитировать? :)

Ответить
Развернуть ветку
Давно Зареган

Пугает, потому что это какой-то элемент дереала. Ну, сегодня они рисуют картинки, а завтра станут ботами-девушками, в которых мы будем влюбляться?

Ответить
Развернуть ветку
Гуманитарный Данила

Все еще звучит не плохо :)

Ответить
Развернуть ветку
Kate Moonfire

А мне очень нравится результат художеств нейросетей. Хотя я, как раз, дизайнер/иллюстратор. Такой кайф иногда выдаёт, просто загляденье. И у меня бы на это ушло часов 40, может больше. (не считая сколько-то лет повышения квалификации, тк придется признать, сетка круче меня рисует). А сетка за 40 секунд выдала мне 4 варианта. 4 бомбических варианта 😍

Однако, у нас был творческий запрос - для обложки альбома. Там можно позволить себе больше вольности, чем в обложке статьи.

Ответить
Развернуть ветку
Denis Azarenko

Консистентности нет у этих рисунков

Ответить
Развернуть ветку
Stan Popovsky

Меня впервые осознанно вот с этого проняло -
https://www.youtube.com/watch?v=cNZPRsrwumQ

Ответить
Развернуть ветку
Забор крови
Не в смысле, что на них что-то страшное, а в смысле, что их продукт как бы имитирует результат человеческого труда.

Ткацкий станок заменил ткачей, но вязать свитера бабушки от этого не перестали, а масляная живопись не исчезла насовсем с появлением фотографий.
Помимо конечного результата всегда есть социальный жест заботы, услуги, милости или покровительства, который даётся артистом его клиенту. И если источник благ прибегает к дешёвым способам выражения своего статуса, то он выказывает таким образом пренебрежение своей клиентеллой, и таким образом он становится лёгкой мишенью конкурентов за статус.

У свободных людей, вероятно, в будущем останутся способы накопить социальный капитал и затем выборочно приподнимать им клиентеллу, выражая ей своё внимание.

Ответить
Развернуть ветку
71

Это эффект зловещей долины пока алгоритмы только развиваются. С развитием алгоритмов и по мере того как люди будут к ним привыкать это пройдёт.

Ответить
Развернуть ветку
Dmitry Perepelkin

В общем нейросеть не справилась. Так и получается когда от неё слишком много ждёшь. Midjourney поднадоела, везде эти красные глаза и общая стилистика прослеживается в персонажах, перестало быть интересным.

А вот вам рандомный запрос для Dall-e:

Наглый толстый кот пырится на тебя из холодильника
Ответить
Развернуть ветку
Timofey Asyrkin

Хорош, котяра

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Dmitry Perepelkin

Prompt engineering, однако. Красивое название, а в комметах будет удачный запрос и результат?

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Allweneedislove

В целом мидджони выдает годные результаты

Ответить
Развернуть ветку
Obi Van Goga

такие картины можно и на выставку отправлять

Ответить
Развернуть ветку
Dmitry Perepelkin

Ламповые пейзажи и Dall-e выдаёт. Причём как по мне лучше.

Ответить
Развернуть ветку
Alex Moren

Просто эти сетки довольно специфичные, работы midjourney можно легко угадать. Можно также накормить сеть бизнесовыми иллюстрациями и более айтишной терминологией. Стилистику компании можно также нагенерировать сначала, выбрать какой-то пул, ограничить цвета и тд.

P.S. Запросы вроде не очень хорошие, нужно хотя бы уточнить стиль.

Ответить
Развернуть ветку
Лев Кириллов

MD переводится как «половина пути», в названии уже вложен смысл и ответ на вопрос) половина пути к цели от нейросетки, остальное сами

Ответить
Развернуть ветку
Dmitry Perepelkin

С одной стороны да, с другой они сильный упор сделали в детализацию, от чего многие прифигели и полюбили. Но детализация там не пришей кобыле хвост.

Ответить
Развернуть ветку
Лев Кириллов

Нейросети пока с трудом удаются человеческие глаза, именно глаз и зрачок, детализация. Почему - загадка, более сложные штуки рисует на раз

Ответить
Развернуть ветку
Лев Кириллов

Нейросети пока с трудом удаются человеческие глаза, именно глаз и зрачок, детализация. Почему - загадка, более сложные штуки рисует на раз

Ответить
Развернуть ветку
Vasek Romanov

Ждем плагин для фигмы чтобы быстро генерить себе иллюстрации / иконки.

Ответить
Развернуть ветку
Оля Яркова

Как и с текстовыми нейросетями, они могут лишь облегчить рутинную работу, навести на новые идеи, но не заменить целиком

Ответить
Развернуть ветку
Dmitry Perepelkin

Да, с идеями dall-e справляется неплохо! Stable diffusion тоже. MD так себе если честно.

Ответить
Развернуть ветку
Слегка Придурковатый

Протестировал эти же запросы в dreamstudio. Жутковато вышло.

Ответить
Развернуть ветку
Oleg Ast

Заящер

Ответить
Развернуть ветку
Shiroi Kitsune

А как же душа иллюстраций?

Ответить
Развернуть ветку
DaemonHK

Дизайнерская поебень для поднятия ЧСВ и бабла

Ответить
Развернуть ветку
Гордей

Зашёл в комментарии сразу написать, что у вас заголовок и оглавление совершенно из разных мест

Одно никак не отражает другое

Ответить
Развернуть ветку
Гордей

ой да фпизду, не осилил

Начал читать: ну как так можно всрато сделать? У вас классный заголовок, я хочу узнать подробнее

НАХУЯ мне читать три абзаца подряд что такое миджоурней

Ответить
Развернуть ветку
Козлов Андрей

Да думаю , человека не заменят никогда

Ответить
Развернуть ветку
Anna Wimmer-Savinova

По вопросу о яйцах и зайцах ;)
Это скорее ассоциативный ряд , который нейросеть знает в честь католической пасхи ) потому что зайцы приносят яйца и эта логика визуальная понятна католикам (считывается ) но не все в мире католики , про это видимо нейросеть забыла

И Она же не только на третьем эксперименте выдала яйца , а сразу на первом

Ответить
Развернуть ветку
Selectel
Автор

Кстати, очень хорошая гипотеза)

Ответить
Развернуть ветку
Burubado

Похоже на рисунки психбольного
и уродов ядерноей зимы.
Мы все умерли и уже в аду???

Ответить
Развернуть ветку
Тимур Маркин

С кроликами особенно криповые

Ответить
Развернуть ветку
кто-who

Прямо в душу смотрят

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Читать все 41 комментарий
null