Душа и характер нейросети, обзор и личный опыт

Мир успел удивиться нейросетям и привыкнуть к ним. Но можно ли уже говорить, что мы их поняли?
Весь год я активно использовала Midjourney для работы и развлечения и хочу рассказать о тех её особенностях, которые не лежат на поверхности, а открываются постепенно.
Все картинки в статье — мои генерации.

Леопард и мартини (серия "Опасные животные")
Леопард и мартини (серия "Опасные животные")

Я занимаюсь созданием иллюстраций еды, для которых критически важно качество картинки. Поэтому обращаюсь в основном именно к Midjourney. (Другие сильно отстают, и даже недавно вышедшее громкое обновление ChatGPT ничего пока не поменяло.) Но если судить по шагам, которые предпринимают создатели разных нейросетей, прогресс идет примерно в одном направлении, и уже заметно, что природа всех нейросетей похожа.

Серия кофейных напитков для компании Coffer
Серия кофейных напитков для компании Coffer

Эта природа — самое главное, что нужно суметь почувствовать, если вы хотите сделать работу эффективной. Наградой станет экономия времени, иногда настолько существенная, что разница напоминает разницу между ловлей рыбы голыми руками или сетью с траулера.

Душа и характер нейросети, обзор и личный опыт

Основное в нейросетевой природе, ее фундамент и база — приверженность стереотипам. А ведь стереотипы, в свою очередь — это отражение реальности нашим сознанием, и оно всегда происходит с искажениями. И вот эти-то искажения искусственный разум доверчиво копирует.

Зная повадки нейросети, можно предугадывать некоторые генерации.

Например, лист клевера окажется скорее четырехлепестковым, нежели чем обычным, трехлепестковым — несмотря на то, что в природе такая мутация встречается редко. Но зато в инфопространстве часто!

Люди постоянно воспроизводят изображения «счастливого» четырехлепесткового клевера, поэтому нейросеть верит, что четыре лепестка для клевера — норма.

Пример с клевером — всё же исключение. Как правило, влияние «культурного компонента» не такое гротескное, но, тем не менее, определяющее.

Например, тяга нейросети к определенным композициям тоже основана на ее любви к шаблонам. Всем знакомы и приелись нейро-картинки с перспективой уходящей вдаль ровно посередине изображения и тому подобное. При прочих равных в выдаче будет преобладать симметрия. Если понимать причины, то это не удивляет. Симметричная композиция — это матожидание всего гигантского количества композиций внутри датасета.

Натюрморт с шоколадом в голландском стиле
Натюрморт с шоколадом в голландском стиле

Кстати, неспроста в Midjourney добавлен специальный параметр --chaos, с помощью него иногда удается побороть дефолтную шаблонность, но этот инструмент несовершенен, из-за непредсказуемости. А если нужен конкретный результат?

Серия «Опасные животные» делалась как некоммерческий проект, для собственного развлечения и исследования возможностей нейросети. Идея была в том, чтобы подобрать к каждому хищнику алкогольный напиток и таким образом сымитировать фотосессии, которые в реальной жизни было бы невозможно организовать.

Когда очередь дошла до волка с коктейлем «Кровавая Мэри», у меня уже был медведь с виски, который смотрел строго в кадр. Опыт подсказывал, что простой промт даст опять морду анфас, а хотелось разнообразия. Но задумайтесь, какой волк всегда сидит в профиль? Уверена, стереотипное мышление подскажет: конечно же, волк, который воет. Вводим в промт «волк воет», и вот он уже сидит в зимнем лесу, ровно такой, какой нужно.

Всю серию животных-любителей-алкоголя можно увидеть в моем канале <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ft.me%2Fsmotri_eda%2F2197&postId=1168788" rel="nofollow noreferrer noopener" target="_blank">Смотри: еда!</a>
Всю серию животных-любителей-алкоголя можно увидеть в моем канале Смотри: еда!

Приверженность визуальным клише можно использовать, но все-таки чаще она мешает, и требуется её обходить. А что во вкусах нейросетей нам нравится? Лично меня покоряет умение создавать визуальные рифмы. Если в промте есть повод устроить остроумную перекличку элементов, она, скорее всего, проявится в генерации. Именно в такие моменты кажется, что с той стороны монитора не бездушная программа, а живая личность.

Яркий пример: узор на вазочке с мороженым будто имитирует потеки этого самого мороженого. Правда, талантливо?
Яркий пример: узор на вазочке с мороженым будто имитирует потеки этого самого мороженого. Правда, талантливо?

Однако эта «личность», как ни удивительно, довольно слаба в точных науках. Физика, оптика, сопротивление материалов — их законы неведомы нейросетевому сознанию. Оно готово имитировать внешний облик вещей, но понять, как действуют силы материального мира, не может.

Что будет, если попросить Midjourney сложить коровку из спичек.
Что будет, если попросить Midjourney сложить коровку из спичек.

В этой области есть прогресс, и рано или поздно ИИ закончит хотя бы среднюю школу по точным дисциплинам, но пока он не умеет даже пользоваться столовыми приборами. Хорошо, что это не становится серьезным препятствием на пути к красивым картинками.

Обновления выходят достаточно часто, по ним можно следить, как создатели настраивают новые параметры, отлаживают то или это, из-за чего Midjourney постоянно меняет характер, обрастает новыми возможностями. Недавно, например, добавился параметр --sref random, вещь, на мой взгляд, достаточно агрессивная, провоцирующая аддикцию, будьте осторожны. Вместо интеллектуального промтинга нам цинично подсовывают рулетку стилей, где все, что требуется от юзера — нажимать и нажимать на кнопку, авось нужная картинка вылетит сама, без усилий по ее созданию.

Что поделать, суровая капиталистическая правда в том, что кому-то выгодно заставить пользователей проводить за генерациями бесконечные часы. И эту функцию не получится «хакнуть» никак, кроме как составив библиотеку стилей. Но как уже известно, их количество исчисляется десятизначным числом, поэтому ценность такого метода всё же сомнительна.

Душа и характер нейросети, обзор и личный опыт

Однако есть функции более познаваемые. Какое-то время назад обновился параметр --stylize, выражающий специфическое влияние на итоговое изображение будто бы чьего-то вкуса к красоте. Возможно, самих создателей. Удалось установить, что повышение этого параметра ведет к преобладанию теплых оттенков, в пределе оранжевых, и еще пестроты. Ну, вот так, о вкусах не спорят. В процессе экспериментов с этой функцией обнаружились забавные явления: в высоких значениях оранжевая пестрота так сильно начинает «давить» на картинку, что иногда «передавливает» даже промт.

Особенно интересно было найти пары объектов, которые алхимическим образом получаются один из другого прибавкой лишь одного этого параметра, на идентичном текстовом промте.

Я нашла две таких: из белого гриба получается мухомор, а из лимона — апельсин.

Промт для грибов: Boletus mushroom in the forest, photography --s {100, 1000} --v 6.0

И аналогично для апельсина, только у того в промте лимон.

Может быть, у вас будут еще подобные идеи? Напишите в комментариях, а я проверю на практике.

Мне хотелось обратить ваше внимание на неочевидную, "магическую" природу нейросетей. Наверное, это и есть то главное, что так увлекает в работе с этим инструментом.

Кстати, у меня есть еще одна статья про Midjourney: о том, как ее освоить, не прибегая ни к чьей помощи. Она вышла год назад и все еще актуальна для начинающих.

Возможно, через год будет написана и следующая, если соберется новый материал.

А если хотите следить за экспериментами в реальном времени (а иногда и участвовать), подписывайтесь на мой канал-мастерскую Смотри: еда!

22
Начать дискуссию