Midjourney, DALL·E 2, Stalbe Diffusion, Disco Diffusion, Craiyon: практические аспекты использования AI арт

В августе 2022 года в открытый доступ вышла нейронка Midjourney для генерирования художественных изображений (картин, рисунков, 3д графики, фото и т.д.). Многие блогеры сразу написали "Художники останутся без работы".

И действительно, изобразительный уровень, детализация, творческий поход и имитация любых стилей искусства у Midjourney поражает воображение любого не подготовленного зрителя. Но пытливый разум сразу задает себе вопрос, а чего она все-таки не может? Давайте разбираться.

Методом проб и ошибок удалось обнаружить следующие ограничения:

  1. Кисть руки. Разработчик это не афиширует, но похоже это огромная проблема. Как следствие, не возможно стабильно генерировать изображения человека в полный рост. Т.е. при каждой генерации, нейросеть пытается расположить тело человека таким образом, чтобы скрыть кисти рук и стопы, при этом часто обрезая голову.
  2. Глаза. Даже при попытке отрендерить фото глаз, уже начинает быть заметно, это очень похоже на человеческие глаза, но по сути фото реалистичными глазами не является. Проблемы начинаются даже при попытке просто нарисовать отдельно глаза в цвете. Ну а на макро фото глаза, или детальном фото, вы увидите жуть во всех деталях. Часто MJ рисует чуть разные глаза на фото, это как повезет. Разработчики скорее всего в курсе об этом, поэтому часто нейронка или перебликовывает глаза, или рендерит их черно-белыми, чтобы при беглом взгляде было похоже на реалистичные. Кроме этого, реальное макро фото глаза выдает отражение фотографа в блике, избавиться от которого, насколько мне известно, не возможно.
  3. Умение считать. Если, ввести запрос сгенерировать от одного до трех объектов, то нейросеть обычно справляется. Но если, поросить нарисовать что-то больше трех, например, пять пальцев, то начнутся проблемы. Не, считать она все-таки умеет. При попытке нарисовать 5, будет сгенерировано примерно четырех до девяти объектов (я детально не исследовал данный вопрос). Также при запросе сгенерировать огромное количество - будет создано более 10 объектов. Так что, единственный способ создать ровно 5 - это запускать генерацию несколько раз. Рано или поздно у вас выпадет нужное число.
  4. "Непослушные слова". Полный список запрещенных слов для генерации держится в секрете, если кратко, то это: порно запросы, обнаженные части тела, насилие и деликатная тематика. А известных людей можно? Да, нарисует не отличишь от настоящих (знать только как, надо), но если вы попробуете нарисовать Willy Wonka (из Чарли и шоколадная фабрика), то получите сообщение "banned" и обещание отозвать ваш доступ, если вы попробуете обойти это ограничение. Тоже самое случилось и у меня при попытке нарисовать в стиле Wei Wang, художника World of Warcraft. На Западе все сразу заговорили про 1984.
  5. Два объекта с разными свойствами. Из 12 попыток нарисовать два горшка, один белый а другой черный только одна была удачной. Это уже как повезет. Похоже, что все что рисует нейронка, это является одним объектом, удерживать фокус внимания на 2х объектах с разными свойствами она пока не спсобна.
  6. Пять более понятий у одного объекта. На самом деле, стабильно генерировать даже 4 понятия Midjourney дается с костылями. Например, если вы никак не можете срендерить богиню Афину (женщину, в шлеме, с копьем и щитом), то можно заменить Афину на пикинера (воин с копьем) и добавить в запрос женский пол, шлем и щит. В противном случае, нейросеть будет вас или не понимать, или просто терять то одно понятие то другое, забывая отрендерить их.
  7. Не стандартные объекты. Например, человек с двумя головами - справится даже ребенок. Палка, палка, огуречек и два кружочка, вот и вышел двухголовый человечек. Но, нейросеть умеет хорошо рисовать то, чем она обучена, а чему не обучена - не умеет. Т.е. шаг в лево или вправо с проторенной дорожки вызывают огромные проблемы.
  8. Некоторые объекты. Например, ключи. Чо? Да, обычные дверные ключи. Воспользуйтесь поиском по работам сообщества и проверьте, обычные ключи мало кому нарисовать удавалось. Кристаллическую книгу рисует с большим трудом. Со временем, авторы, скорее всего, ее дообучат, и этот список будет уменьшаться, но пока список слов, чего она может и не может держится в секрете, так что, вас ждет много сюрпризов на пути к цели.
  9. Стабильный результат. Дело в том, что GPU каждый рендер делает по уникальному семени (seed), который похож на генератор случайных чисел привязанный к таймеру компьютера. Т.е. генерация каждого изображения нейронки будет уникальной. Есть костыли, которые позволяют обойти эти ограничения, но если вы задумали нарисовать персонажей для компьютерной игры, или комикс - это создаст своеобразный стиль, где на каждом рисунке на вашем персонаже будет разная одежда, окружение будет меняться и т.д.
  10. Слова, надписи, числа. Есть костыли, которые позволяют обойти это ограничение, но я на момент написания статьи так и не смог. С отдельными буквами, цифрами и знаками препинания, эта штука похоже справляется, Но, чем длиннее слово, которое вы пишите, тем больше вероятность возникновения орфографической ошибки. И да, поддержки русского языка нет.
  11. Светлый цвет. По умолчанию, в настройках стоит темная цветовая гамма, так что, большинство работ, особенно сделанных начинающими художниками довольно мрачные. Да, веселые картинки нейронка может рисовать, так что, пункт 11 ограничением не является, но переключить ее в светлые цвета, но это еще надо знать как.

Таким образом, художники пока могут спать спокойно. На ближайшие лет пять работы им точно хватит.

0
Комментарии
-3 комментариев
Раскрывать всегда