Как нейросеть меня отправила в джунгли с бокалом пива. Наш опыт фейс свапа на Stable Diffusion и Midjourney

В начале года мы решили серьезнее углубиться в нейросети. Благо опыт работы с ними у нас был. Да и знакомых спецов в этой сфере хватает. Короче говоря, сделали ставку на то, что проекты с ИИ будут востребованы в этом году. Не прошло и недели, как к нам приходит несколько запросов от клиентов.

Как нейросеть меня отправила в джунгли с бокалом пива. Наш опыт фейс свапа на Stable Diffusion и Midjourney

То ли знак свыше, то ли простая случайность, но им нужны боты с подключенной нейронкой. Начинаем ресерчить и верить в то, что мысли материальны.

Раскрывать подробностей проектов не будем, но отметим одну важную деталь. Несмотря на разные запросы и концепты, по технической части они одинаковые.

Основной задачей обоих запросов было дать возможность клиентам генерировать изображения в определенном контексте. Предположим, что заказчик хотел, чтобы юзера переносило в мир Джуманджи.

Пошли ресерчить

Сейчас на рынке полно разных моделей нейросетей, генерирующих изображения. Осталось выбрать ту самую. Но у нас есть определенные условия и их выполнение обязательно.

  • Модель должна стабильно выдавать качественные изображения
  • Количество “артефактов” (глитчи, дизморфия) должно быть минимальным
  • Мы должны иметь возможность генерировать схожие изображения с конкретными деталями
  • И самое важное - нам нужна такая модель, которая сможет взять исходную фотографию и уже на основании нее сгенерировать другое изображение

Смотрели в сторону стандартного Midjourney и Stable Diffusion. Они конечно генерируют классно, но мы не нашли легкого способа создавать изображения на основе загруженной фотографии.

Не отыскав нормального решения с базовыми Midjourney и SD, мы связались с нашим знакомым, бывшим продактом Яндекса (у него как раз большая экспертность в нейронках).

Решение, которое он подсказал - replicate.com. Это платформа для хостинга разных моделей с открытым API. Кстати, в replicate модели можно свободно тестировать. Модель, которая нам была нужна генерировала фото по промту и переносила лицо с исходной фотографии.

Процесс пошел.

Первые результаты

Пишем промт, подгружаем свою фотку. Буквально через 10-20 секунд после отправки нашего запроса нейронке, я оказался в джунглях, да еще и с бокалом пива в руке. Получилось не просто неплохо, а очень хорошо.

Как нейросеть меня отправила в джунгли с бокалом пива. Наш опыт фейс свапа на Stable Diffusion и Midjourney

На пару часов мы буквально стали детьми. Мы подгружали фото друзей и писали новые запросы. Нас было не остановить.

Когда эмоции поутихли, а мы окончательно убедились в том, что это нужный нам инструмент, мы стали писать нормальные промты для заказчика. Подгоняли все достаточно долго, зато в конечном итоге получили то, что хотел клиент.

Но не все так радужно - нарисовалась небольшая проблема. Появился шестой палец, летающий палец, седьмой палец, прости господи, палец в стакане

Было бы смешно, если бы не было так грустно. На корректирование промтов мы потратили примерно столько же времени, сколько на их написание с нуля.

Но все равно из 10 сгенерированных изображений, 6 раз мы получали изображение с шестью пальцами. Полностью решить проблему не удалось, но мы подумали, что можно дать пользователю возможность перегенерировать изображение.

С запросами клиентов разобрались, референсы скинули, ждем их ответа.

Конкретно в этом случае нас спасла нейронка, которая делает перенос лица на сгенерированное изображение. Но...

Что еще нам могут предложить ИИ медиа-сервисы?

  • Разумеется, простая генерация. Отправляем запрос нейронке, ждем немного и получаем изображение.
  • Face swap. Наверняка видели такие маски в ВК. Единственное условие - “лица”, которые меняются местами должны находиться рядом. Тут механизм такой же, но поменять лицами можно кого угодно с кем угодно. Ограничений нет от слова совсем. Поменять лицо Генри Кавилла на лицо Мадса Миккельсена в сериале “Ведьмак”? Проще простого.
  • Создание 3D моделей. Свою идею теперь можно не просто “нарисовать”, а покрутить и рассмотреть с любой из сторон.
  • Создание видео. Очень рекомендую обратить внимание на Sora и ее аналоги. Последняя уже выдает клипы на уровне топовых продакшенов.

Это что касается визуала. Но мир нейросетей с каждым днем расширяется и уверенно пополняет арсенал маркетологов. Помимо картинок мы уже сейчас можем конвертировать текст в голос и наоборот, генерировать текст и даже музыку!

Рекомендую посмотреть на наш кейс с ChatGPT

А теперь про деньги

Супер, это все невероятно и здорово, но сколько это может стоить? Приведу пример на основе модели на replicate.

Как нейросеть меня отправила в джунгли с бокалом пива. Наш опыт фейс свапа на Stable Diffusion и Midjourney

Одно изображение у нас генерировалось в районе 30 секунд. Предположим, что генерация происходит не на самом дорогом, но и не на самом дешевом сервере.

Возьмем стоимость секунду в 0.000725$, в рублях с комиссией ~ 7 копеек/секунду. Отсюда предположим, что одна генерация может стоит около 2-3 рублей.

Есть еще один вариант - хостить модель на своих серверах. Но вот мнение нашего эксперта:

Как нейросеть меня отправила в джунгли с бокалом пива. Наш опыт фейс свапа на Stable Diffusion и Midjourney

Подводя итоги:

С помощью таких инструментов в грамотной обертке, можно легко увеличить лояльность клиентов и узнаваемость бренда. Запуск нового проекта можно сделать ярким, а аудиторию, которая перешла в бота, можно прогревать для дальнейших продаж.

Надеюсь, что наша история подкинет вам пару идей, в реализации которых мы точно сможем вам помочь.

Для связи: Telegram
Email: ShataloffDIS@gmail.com

Шаталов Богдан, CEO Shataloff DIS. Разработка цифровых имиджевых решений.

66
13 комментариев

Блин, до чего технологии дошли, круто!

2

О нет, где я? Кажется, я в мире майнкрафта...

1

Возвращайся скорей!

ахуеть, вы типы - гениально) желаю успехов

1

Теперь хочется посмотреть на реальный кейс с сд

1

Интересный проект! Можно нашему фаундеру в руку ключи от Ролс ройс вместо пива?)))

1