Почему нейрофотосессии — это ад, а не «волшебная кнопка»: исповедь дизайнера, который сделал +886 генераций в мусорку
«Сейчас быстренько сгенерю, что заказчик в обморок упадёт», подумал я когда сел за первую нейрофотосессию для клиента. Результат: в обморок падал только я и не от счастья, а от нервного истощения.
Я веб-дизайнер. Ко мне часто приходят за сайтами, и всегда встает вопрос контента.
Стоки — скучно и заезжено, организовывать живую съемку — долго, дорого и сложно. Поэтому я решил, что сделаю нейрофотосессию и таким образом расширю свой спектр услуг.
Спойлер: я потратил 3 дня, сделал +886 генераций (я не шучу, большинство генерация я сохранял на свой ПК). Мой стул дымился от подгорающего пердака, а соседи выучили много новых матерных слов.
Но я наконец-то понял, как это работает.
Я прошел через ад, отчаяние, стадии принятия и желание разбить монитор и вот как это было на самом деле.
Глава 1. Зловещая долина и пальцы-сосиски
Всё началось с энтузиазма. Я открыл нейросеть, дал фотку клиента и вбил промпт.
Ожидание: глянцевая картинка уровня Vogue.
Реальность: существо из кошмаров Лавкрафта смотрит на меня тремя глазами, а вместо руки у него ветка. Иногда доходит до полного абсурда, иногда косяки ели заметны.
Вот самые распространенные косяки, которые рисует ИИ:
- Один глаз смотрит в душу, другой — в Саратов.
- У модели 6 пальцев, и все они растут из локтя.
- Вместо iPhone в руках какой-то расплавленный кусок мыла.
Но самое страшное в генерациях — это не откровенные уродцы. С ними всё понятно — в мусорку. Самое страшное — это «почти получилось».
Свет идеальный, композиция — огонь, цвета — как в кино, но ты приближаешь, а там...
Черты лица схожи, но очевидно, что это другой человек. Таких генераций получается приблизительно 80-90%.
Глава 2. Почему промпт-инжиниринг — это больно
Оказалось, что нейросеть — это как очень талантливый, но абсолютно пьяный художник. Ему нужно объяснять не просто «нарисуй красиво», а буквально бить по рукам линейкой.
На 300-й генерации я начал терять связь с реальностью.
Ты меняешь одно слово в промпте, например, добавляешь «мягкий контровой свет», и нейросеть решает: «Ага, значит, модель должна быть азиаткой, а на фоне гореть лес».
Ладно, шучу, вот что получилось, когда я решил добавить мягкого контрового света.
Я научился ненавидеть слово "realistic", поэтому я пробовал ControlNet, Inpainting, same photo, перерисовывал куски, склеивал их в Фотошопе.
Мой процесс выглядел так:
- Генерация.
- «Фу, гадость».
- Генерация.
- «Вроде ок, но почему у неё усы?»
- Исправление.
- «Теперь усов нет, но пропала нога».
- Крик в подушку
Иногда, когда ИИ становится скучно он начинает рисовать вот такие ТОПовые коллажи. Природу их возникновения я не понял и до сих пор.
Круг ада №3. «Шакальное» качество и ловушка апскейла
Это случилось приблизительно на 500-й попытке.
Я уже вдруг решил, "Эврика, у меня получилось!". На радостях я нагенерил несколько фоток с собой, а потом... .
Потом я открыл картинку на весь экран... и захотел плакать.
Потому что в нейросеть выдала маленькое разрешение с уродливым мылом. Все детали сглаженные. Глаза — просто точки. Текстура кожи похожа на дешевый пластик.
«Не беда, есть же апскейлеры (улучшайзеры)!» — подумал я. Ведь, некоторые варианты получились неплохими или даже хорошими.
Я прогнал картинки через топовые апскейлеры и знаете что получилось?
Они делают только хуже.
- Дорисовывают детали там, где не надо
- Они превращают кожу в выжженный песок
- Открываешь на сайте фулл-сайз — это шакальное качество, которое стыдно показать клиенту. Пиксельная каша или перешарп.
Ни в соцсети, ни на сайт это ставить было нельзя — это был брак.
Что я вам все это рассказываю, вот посмотрите.
Мягко говоря я на себя не похож... .
Одним слово — п... .
Глава 4. Переломный момент (700-я попытка)
Где-то на третьи сутки, когда глаза уже вытекали из орбит, количество перешло в качество.
Я перестал тыкать наугад и нащупал систему.
Я понял главную вещь: нейрофотосессия — это не рандом.
Это жесткий технический процесс исключающий логику и здравый смысл, но все же имеющий некоторые паттерны. Это не «творчество», это математика + знание композиции + постобработка.
Шучу — это тупо опыт в переработанных вариантах.
Чтобы получить одно изображение, которое бренд не постыдится повесить на главный баннер, нужно пройти через ад обработки, апскейлинга, ретуши в фотошопе и ручной доводки деталей.
Но когда на 800-й раз я получил ЭТО, я понял, что оно того стоило.
Или вот ещё пример
Что мы имеем в итоге (и зачем это бизнесу)?
Пройдя через этот ад, я теперь могу выдавать стабильный результат. Вот почему клиентам это выгоднее, чем живая съемка, даже с учетом всех мучений:
- Бюджет. Аренда студии, гонорар модели или собственное время, визажиста, фотографа — это минимум 10-50к за один сет. Нейросеть не просит кофе и такси.
- Локации. Нужна съемка на Марсе? В офисе Apple? На дне океана? Мне и вам не нужно покупать билеты)
- Уникальность. Это не фотосток, который есть у всех конкурентов. Это создано под конкретный бренд.
Зачем я вам это рассказываю?
Чтобы вы поняли: Нейрофотосессия — это не халява.
Это не «нажал кнопку — получил результат». Это навык, это часы ручной доводки, исправление уродств, борьба с артефактами и вытягивание качества.
Я этот путь прошел. Я научился делать стабильно круто, обходя все эти грабли с кривыми лицами и мыльным качеством.
Если вам нужна сочная фотосессия для сайта или соцсетей, и вы не хотите потратить неделю жизни на созерцание шестипалых мутантов — приходите ко мне. Я сделаю всё «под ключ», а вы получите готовый продукт, а не нервный тик.
P.S. В процессе написания статьи ни один реальный фотограф не пострадал, но парочку нейросетевых я проклял.
P.S.S. В следующий раз расскажу, как я сэкономил клиенту около 120 тысяч рублей на 3D разработке и рендеринге. Но это, как говорится уже совсем другая история.
Первое изображение исходник, все последующие - это генерация.
Вам нужна нейрофотосессия? Пишите — это стоит копеек!