Как использовать AI генераторы для создания концепций (гайд)

Наступающий год сулит головокружительные изменения в технологии искусственного интеллекта: специалисты сферы разрываются на лагеря “ИИ нас всех погубит!” и “Это новая ступень эволюции”. Вышла новая версия Midjourney 6, а ранее ещё и новая версия ChatGPT, правда последнюю ещё не дают простому люду. Главные CEO компаний сталкиваются с драмами уровня “Игры Престолов”. Можно однозначно сказать, что 2024 год станет не просто годом дракона, а годом под знаком диджитал-демона.

Многих людей пугает вероятность потерять работу, так как их умения станут не актуальны, ведь нейросети справляются с их работой за считанные секунды. Другие отвергают столь быстрое развитие технологий и попросту не верят, что не успеют оглянуться – как они стали безработными. Иногда и меня захлёстывают эмоции ужаса, когда я смотрю на современные возможности технологий. Ещё в 1965 году Элвин Тоффлер ввёл понятие “футурошок” – когда сознание человека не поспевает за ускоряющимся развитием эпохи вокруг него. Только представьте себе, что десятки тысяч лет человеческая раса развивалась крайне медленно. Чтобы создать первое орудие труда понадобились миллионы лет ковыряния в (носу [зачеркнуть]) пещере!

Как использовать AI генераторы для создания концепций (гайд)

Но я оптимистично смотрю на изменения, поэтому чем быстрее мы изучим, как пользоваться этим новым орудием труда, тем будет лучше для нашего первобытного человека.

Что запрыгивать на поезд давно пора – поняли многие, а многие ещё и подсуетились создать целые КУРСЫ по платному обучению нейросетям. Честно скажу, я их не покупала, потому что не могу представить, чему они могут научить. Во-первых, сейчас это орудие труда предоставляется разработчиком абсолютно бесплатно. Не то чтобы они были такими Робин Гудами альтруизма, для них это необходимая тестировка их нового оборудования, а так мы получаем эту игрушку и миллионы людей играются, а разработчик смотрит на это, как на подопытного кролика, ищет ошибки и улучшения. Во-вторых, я не против курсов обучения в принципе, я сама обожаю учиться и покупаю разные профессиональные курсы по повышению квалификации, но ещё больше я прохожу их онлайн в открытом доступе. Когда я училась в институте на архитектора, первые курсовые работы должны были быть сделаны обязательно от руки. Но уже на третьем курсе мне казалось это доисторическим правилом и я сама скачала на торрентах программу для черчения и начала её изучать. Просто методом тыка в буквальном смысле. Затем, когда начало получаться, я стала углубляться и смотреть кладезь знаний – Youtube. Я не могу описать словами количество обучающего контента, которое есть на этой площадке. Так я выучила большинство сложных программ, которые я знаю, включая 3D’sMax, Archicad, Autocad, Photoshop и прочее из пакета Adobe. Сегодня я против пиратства, хотя живя в России нас как будто подталкивают к этому, ставя запреты на легальную покупку чего угодно. Как будто мы не нация пиратского потребления. Ну, да ладно, не отходим от темы.

Инфоцыгане заполонили интернет-пространство своей абсолютно пустой и, местами, даже вредной информацией. Поэтому мне захотелось поделиться своим опытом использования нейросетей бесплатно. Я думала, что это вообще никому не надо – все и так знают, насколько просто использовать нейростеку, но смотря на количество курсов мне кажется, что всё-таки надо отдать должок за количество бесплатной информации, которую я получила в своё время из интернета, и поделиться, как просто можно оседлать этого нового коня, помогающего нам вспахать наше поле экспериментов.

Основа в работе с нейросетью это понять её язык, а точнее логику языка. Наша лингвистическая логика не похожа на нейросеть, хотя и стремится к её имитации. Вспомните хэштеги или запросы в поисковую систему: нужно постараться вместить одним словом фактически, что вы ищете или показываете миру. Чем объёмнее и точнее значение слова – тем лучше оно подойдёт к вашему запросу или фотографии в социальной сети. Примерно так нейросеть видит информацию – как облака из частиц слов, некоторые большие и включают в себя множество информации, другие маленькие и менее точные, поэтому и видит она их размыто. До недавнего времени, а точнее до выхода Midjourney6, нарисовать верное количество пальцев или зубов у человека составляло большую сложность, потому что нейросеть не имеет ни малейшего понятия о строении человеческого тела. Для неё есть только вот это облако из различных тэгов. Поэтому она не могла взять в толк, почему иногда у нас видно 4 пальца, иногда 7, а иногда целых 10! У неё нет никакой логики последовательности развития биологии или вообще, эволюции как таковой. Она не понимает концепций. Она понимает огромные информационные кластеры, которые умеет делить на различные байты и раскладывать по своим полочкам, как в Вавилонской библиотеке.

Поэтому, не стоит писать запрос в форме “Нарисуй мне пожалуйста котика”. Нейросеть вас в целом поймёт, безусловно, но будет ли это эффективно? Как же добиться тогда именно того рабочего варианта картинки, который вы хотите использовать?

Скажем, вы придумали в своей голове идеальное изображение. Но, если попытаемся так сформулировать запрос, то вряд ли мы получим сразу то, что хотим…

Для точности формулировки придуманы “промпты”. Это как хэштеги, только если хэштег использовался для поиска другими людьми похожей тематики в соцсетях, то промпт – это код для библиотеки нейросети. Отсюда следует первый шаг в создании изображения: формулируем правильные промпты.

Чтобы сформировать те великолепные изображения, которые мы видим у нового типа художников, AI-artist так называемых, нужно перебирать сотни таких комбинаций промптов, пользуясь разным набором слов, словосочетаний, как скульптор из огромного куска камня отсекает лишнее и филигранно подбирает детали, пока не достигнет именно того, чего хочет. И вот ведь новость – это уже займёт чуть дольше, чем пара секунд. За пару секунд сформируется какое-то самое generic изображение, которое не будет отвечать вашим потребностям, а ещё, вероятнее всего, и никакой новизны тоже не будет в себе нести.

Поговорим о новизне вообще как о феномене. Когда-то, орудие труда стало тоже новинкой. А сегодня мы думаем, что ничего нового создать уже просто невозможно: всё было когда-то сказано, сделано, нарисовано, придумано… Но я думаю, что человеческие идеи имеют бесконечный потенциал, потому что ничто не рождалось за секунду. Всякая вещь – это трансформация и метаморфоза на основе существующего опыта и эмпиризма, переживаемого момента экзистенции, мира вокруг нас и мира духовного. Ещё Гегель придумал (а может просто сформулировал на основе своего опыта), что всякое искусство делится на три части: дух, форма и исторический контекст. То есть формирование “нового” базируется на эдаком мешапе из духа-формы-контекста, но главная часть – это тот, кто задаёт этому интерпретацию. Когда мы формируем изображение в нейросети, сама сеть становится не только инструментом, но поиском смыслов, которые наш мозг может считать в процессе. Это творческий процесс потому, что мы можем “прочитать” по-разному одни и те же вещи, которые нейросеть нам показывает, только вот эти “смыслы” вкладываем только мы, а не ИИ. Для ИИ это просто тэги в облаке. Они не имеют духа – zeitgeist.

Как вообще работают технологии искусственного интеллекта и почему ближайшие годы вряд ли мы увидим порабощение людей роботами? Ответ прост: инпут. Существует две точки входа и выхода информации: точка инпут это то место, где мы вводим исходные данные, как в школьной математике “дано” в задачах. А конечная точка, вывод, “итого” – это аутпут, или результат, ваше изображение в случае с Midjourney. Чем точнее вы зададите данные в инпут, тем ближе к истине будет ваш аутпут. То есть, пока что ИИ не обладает собственными желаниями или волей, чтобы самому себе задать исходные данные. Всё может измениться, конечно, но не думаю, что в ближайшие годы.

Сегодня существуют сотни платформ, на которых можно формировать изображения.

На платформах используются модели генерации, их пока что три: DALL-E 2, Stable Diffusion и Midjourney.

Изначальный источник Midjourney на официальном сайте доступен через платформу Discord. Вы можете там завести аккаунт, с помощью которого сможете пользоваться этим инструментом из первых рук, так сказать. Многие платформы комбинируют существующие модели и дают возможность выбора и сравнения результатов. Для Midjourney принципы останутся теми же, но там это будет более похоже на написание кода для генерации изображения. Платформы делают это проще для нас, потому что там не нужно писать ручками код, а можно параметризировать настройки изображений, которые платформа запоминает и вы уже просто подстраиваете их. Но если хотите попробовать именно этот вариант – в моём любимом ресурсе знаний масса обучающих видео. Также в интернете полно сравнений всех трёх моделей генерации изображений, каждая из них по-разному работает на определённых участках и под разные запросы. Кстати, по картинкам видео можно подумать, что модели умеют хорошо рисовать только женские лица, но это скорее предрасположенность авторов видео. :)

Я предлагаю более простой вариант, которым пользуюсь в работе. Это платформа PlaygroundAi, где можно выбрать Stable Diffusion или DALL-E 2 (с недавнего времени только в ПРО-версии, но добавили собственную модель Playground V2). Я к ресурсу не имею никакого отношения, конечно, просто мне удобно там. Вы можете выбрать любую другую площадку, даже через каналы в ТГ доступны боты нейросетей, в том числе ChatGPT. Принцип работы не изменится, поэтому я продолжу практику на удобном мне PlaygroundAi. Ресурс бесплатный, хотя и у них есть PRO-доступ.

Переходим к практике.

Допустим, вы хотите нарисовать себе новую заставку на телефон, а все существующие картинки вас не вдохновляют. После того как мы залогинились на сайт, нажимаем волшебную кнопку Create.

Нам открывается наша лаборатория творчества. Тут есть два варианта, как будет выглядеть ваше рабочее пространство. Мне нравится вариант Canvas, потому что он позволяет как на доске разместить сразу все варианты изображений и детально их сравнить. Но начинала я в простом режиме Board.

• Самая главная панель находится слева – Prompt. Именно сюда мы вводим основной инпут, что мы хотим видеть. Мне вот сегодня хочется на заставке телефоне иметь поле с высокой травой: field with high grass. Вводим это в строку и моментально становится активной чудо-кнопка Generate. Но пока что мы её не будем нажимать, а покопаемся ещё в настройках. Что ещё мы видим в левом столбце:

• Фильтры. Это полезная фишка для стилизации изображения, когда вам хочется добавить какого-то эффекта, атмосферы, а может вообще метод рисовки картинки. Именно в фильтрах мы задаём стилистику, коих тут довольно много, например тут есть фильтр для плоской 2D графики, с помощью которой можно создать стикеры в ТГ. С фильтрами мы будем играться много, поэтому можете выбрать по наитию сейчас, я обычно пробую не менее 10 разных фильтров, смотрю на разные эффекты, пока не выбираю финальный и уже его докручиваю далее настройками. Но иногда я даже не пользуюсь фильтрами, если моё описание промпта достаточно подробное и точное.

Сейчас мы рисуем фантазийную картинку, поэтому я прибегну к фильтрам. Что, кстати, эти фильтры делают? А они автоматически дополняют ваш промпт готовыми тэгами, которые уже проверенно работают и нейросетка стабильно выдаёт нужный эффект, то есть в бэкграунде они просто дополняют ваше описание. Я вот хочу попробовать Dreamshaper фильтр. (Он доступен в модели Stable Diffusion XL, который выбирается в списке моделей справа).

•Ниже разработчики добавили “Expand prompt” что дополняет ваше описание с помощью нейросети, это как если бы ваша фантазия работала на 1, а нейросеть на 10. Процесс концептуализации идей становится более креативным. Я пока не буду нажимать эту кнопку и посмотрю, что получится.

• Следующая настройка “Exclude from Image” помогает нам очистить изображение от каких-либо деталей, которые рисует нейросеть, а нам они ну никак не нужны, например, мы не хотим, чтобы в картинке присутствовал красный цвет. Но понятнее будет, когда мы приступим к работе и захотим что-то удалить из первой итерации изображений.

• Настройка “Image to Image” это такой референс, который можно добавить и настроить, насколько сильно его нужно придерживаться. Если у вас уже есть пример, который вас вдохновляет, но по каким-то причинам вы его не можете использовать и нужно его переделать, то грузим сюда этот референс.

• “Control Traits” это уже более профессиональная настройка, если у вас есть понимание композиции изображения и коррекция чёткости, определённая поза человека. Эту настройку мы не будем трогать как начинающие пользователи.

• Справа мы выбираем модель генерации. Я выбрала Stable Diffusion XL, потому что мне нравятся фильтры для неё, но в целом можете экспериментировать и именно это является большей частью вашего обучения.

• Разрешение изображения настраиваем в Image Dimension, в бесплатной версии максимальное 1024х1024, но не переживайте, потому что ещё есть AI инструмент апскейла, то есть увеличения размера изображения тоже с помощью технологий нейросети.

• “Prompt Guidance” это как раз степень вариативности вашего изображения, по шкале от 1 до 30 настраивается придерживание вашего описания или вольная хаотическая метаморфоза. 30 ставить не рекомендуется, потому что это повлияет на качество изображения, потому что вы не пишете в промпте качественность проработки. Но если это отдельный код для промпта – тогда прописываем ручками. Я же в этой графе поставлю 7.

• Настройка “Quality and Details” отвечает за детальность прорисовки нюансов изображения, но высокие значения приведут к очень длительной генерации, которую можно и не дождаться… Поэтому я поставлю стандартное значение 25.

• Далее все настройки оставляем по умолчанию, а последняя настройка количество изображений – в бесплатной версии доступно 4, я столько и выберу.

Теперь попробуем получить красоту. Вжух (Generate).

Генерация заняла 20 секунд и что-то как-то грустно вышло… В целом, вы и так могли такое нарисовать без меня, правда?

А тут начинается работа художника. Лепим скульптуру в промптах.

Дописываю “field with high grass, landscape, horizon line, perfect composition, golden ratio”. Вжух!

Ну вот, это уже больше похоже на пейзажи, но далеко не то, что хотелось бы. Генерация заняла 35 секунд, что уже мне кажется много. Во-первых, я удалю через настройку Exclude from Image колосья пшеницы, потому что она мне совершенно там не нужна: wheat, yellow. Во-вторых, переформулирую промпт более точно, добавлю описание атмосферы: “grassfield with high grass, landscape, horizon line, perfect composition, golden ratio, gloomy weather, dark green colors, high details”. Количество изображений меняю на 2 шт., а соответствие промпту на 5 пунктов.

Ууу, вот это уже поинтереснее. Докручиваю ещё промпт “grassfield with high grass, landscape, horizon line, perfect composition, golden ratio, gloomy weather, dark green colors, high details, tall grass in foreground”, исключаю “wheat, yellow, heavy clouds, common issues”.

Теперь мне очень нравится вариант 1 из последней итерации, занявшей 20 секунд. Я выбираю это изображение как наш новый промпт. Для этого я навожу на картинку и нажимаю на иконку с плюсом – “создать вариации этого изображения”. И тут как раз становится доступным слева ползунок регуляции этого промпта как референса. По умолчанию стоит 30.

Далее я выберу количество изображений 1, повышаю детализацию до 50 и меняю соотношение разрешения до 512х768, так как это ближе к пропорциям телефонов.

И вот оно, почти идеальное изображение, но появилась какая-то неизвестная деталь, потому что повышая детализацию, нейросеть старается нам пририсовать какие-то объекты, которых там нет. Для этого мы перейдём в режим маски промпта: добавьте это изображение как промпт, нажимая “Create Variations”. В настройках “Image to Image” перейдите в режим “Edit with Mask”. В новом окне на изображении всплывает кнопка “Add Mask” – входим в этот режим и обводим не нужные нам фрагменты. Закрываем маску и в промпте слева описываем изменение: “add puffy bush”.

Но результат мне кажется странным, поэтому я меняю его ещё раз десять, пробуя разные вариации ветвей и кустарников, пока не получаю этот вариант, я его сохраняю и возвращаюсь на предыдущую доску. Мне нравится результат и я его сохраняю, но качество не лучшее, я загружаю на платформу Let’s Enhance. Прогнав несколько раз через апскейл, я получаю на выходе заставку в размере 2318х3450 пикселей и удаляю вотермарк :)

Итак, я использую данный инструмент для создания быстрых атмосферных картинок, дающих представление об общей концепции. Далее я уже детально прорабатываю проект в визуализациях с помощью рендера, но первые идеи всегда рождаются благодаря нейросетям. Даже когда мои идеи истощаются, нейросеть даёт мне бесконечную пищу для размышлений. Вот такой у меня метод работы с нейросетями.

Безусловно, это мой личный способ. Возможно вы найдёте другой удобный для себя метод. Но пока что нет единого правильного способа, мы все на этапе тестирования этого орудия труда.

Сгенерированное изображение может быть не самое лучшее и можно еще посидеть над ним пару часов, но приведу ещё свои работы по интерьерам.

И последнее: об этике в работе. Обязательно, обязательно указываем всегда, что сделано это с помощью ai. Во-первых, это видно. Создав пару изображений вы уже выработаете насмотренность и сможете отличать картинки, сделанные с использованием ИИ. Во-вторых, мы пока что на этапе, когда труд художника это всё же ручной труд, а выкладывать работы ИИ и не уточнять об их источнике – это обман.

*все изображения для этой статьи были созданы мной с помощью Ai.

#ai #нейросети #иитехнологии #концепт #design #искусственныйинтеллект