Нейросети для MarTech: AI замена фона для rich контента

Современный мир искусственного интеллекта приносит с собой невероятные возможности для работы с данными даже для MarTech и ecommerce сферы. Одной из наиболее интересных и инновационных технологий, которая привлекает внимание, являются генеративные модели. Именно на этой базе разработана технология определения, вырезания объекта и замены фона, которое полностью кастомизируется и оптимизируется под потребности клиента. Но в этой статье мы рассмотрим не его функционал, а то как генеративные модели работают в принципе и подробнее расскажем про приложение для обработки rich контента для ecommerce от FlexiTech.ai, основанное на модели Stable Diffusion.

Немного про основы генеративных моделей

На самом деле, текущий кейс сильно слож с задачей от Aliexpress, которую мы описывали ранее. Снятое качественное изображение товара надо определить на фотографии, вырезать целиком и вставить в нужный нам фон с учетом его позиции, света и других важных факторов, . В целом, это вписывается в задачу обработки rich-контента для коммерческих целей.

Для получения и работы с rich-контентом для бизнеса есть несколько путей:

  • классический. Арендуется студия с декорациями и товар снимается в разных интерьерах и декорациях. Минусы очевидны — дорого, сложно. Плюсы тоже — качественные фото на руках
  • дизайнерский. Отдаем фото товара дизайнеру и подробно описываем техническое задание, прикладываем референсы. С этим вариантом тоже все понятно: среди минусов — дорого, долго, есть проблемы с авторскими правами при использовании референсов
  • ИИ-путь. Совершенно новый подход, который обеспечивает большие объемы качественного контента в максимально короткие сроки. Любой фон, любой интерьер!

Конечно, нас интересует именно последний вариант, нейронные сети могут закрыть эту потребность в бизнесе с техническим заданием любой сложности, решение от FlexiTech.ai является непосредственным подтверждением этого.

В качестве базовой модели мы рассматривали наиболее популярные и инновационные на тот момент (и тут стоит уточнить, что это решение от 2023 года) нейронные сети на рынке. Остановимся тут немного подробнее:

Глава первая. DALL·E: Текст в изображение

С началом эры генеративных моделей была разработана модель DALL·E от OpenAI. Как и GPT-3, DALL·E является языковой моделью-трансформером. Он получает и текст, и изображение как единый поток данных, содержащий до 1280 токенов, и обучается с использованием максимальной вероятности для генерации всех токенов один за другим. DALL·E способен создавать правдоподобные образы для самых разных предложений, исследующих композиционную структуру языка.

Однако DALL·E ограничивается простыми текстовыми запросами, что ограничивает ее применение.

К сожалению, модель не open source, то есть для масштабирования она не подходит.

Глава вторая. Midjourney: Общедоступный Rich контент

Впоследствии появилась модель Midjourney, которая позволила решить проблемы создания rich контента для электронной коммерции. Возможности Midjourney поражают: модель умеет создавать любые интерьеры и модели, заданные промтом.

Однако, несмотря на ее эффективность, модель также не предоставляет открытого исходного кода, а у нас есть четкое требование — использовать конкретный товар и достраивать изображение не искажая его. Таким образом Midjourney тоже не подходит нам.

Нейросети для MarTech: AI замена фона для rich контента

Решение от FlexiTech.ai на базе Stable Diffusion

Решение FlexiTech.ai основано на концепции Stable Diffusion. Эта модель способна определять объекты, которые следует вырезать из изображения, и заменять фон по запросу. Основная характеристика этой модели — доступность открытого исходного кода, что открывает широкие возможности для ее кастомизации и применения.

Stable Diffusion относится к классу моделей глубокого обучения, называемых моделями диффузии . Это генеративные модели, то есть они предназначены для генерации новых данных, подобных тем, которые они видели при обучении. В случае стабильной диффузии данные представляют собой изображения. Почему эта модель называется диффузионной? Потому что его математика очень похожа на диффузию в физике.

В отличии от DALL-E от Open AI, Stable Diffusion сначала сжимает изображение в скрытое пространство. Скрытое пространство в 48 раз меньше, поэтому у этой модели есть выгодны от обработки гораздо меньшего количества чисел и она демонстрирует более высокие скорости обработки.

Пайплайн

Шаг 1: Сегментация объекта

Первый шаг заключается в сегментации объекта. Модель автоматически определяет объект на изображении, который следует вырезать из фона. Это позволяет сохранить только нужную часть изображения.

Шаг 2: Импейтинг фона

Используя модифицированный исходный код Stable Diffusion, наша модель может автоматически генерировать и настраивать фон вокруг объекта. Модель учитывает контекст и позиционирование объекта, что позволяет создавать реалистичные и качественные фоны.

Основными качествами выбранной технологии являются:

Глубокая сегментация. FlexiTech.ai анализирует изображение и определяет, какой объект следует вырезать, даже если на изображении присутствуют несколько объектов. Это позволяет установить акцент на нужный объект и обеспечивает точную сегментацию.

Универсальность. В отличие от некоторых аналогичных решений, которые ограничены определенными типами объектов, FlexiTech.ai способна вырезать любые типы товаров. Это обеспечивает универсальное применение решения в различных сферах.

Как итог: разработанное нами решение показывает качество значительно лучше достаточно известного сервиса pebblely.com и на основе этого решения получилось продать продукт стратегическому инвестору за сотни млн ₽

Генеративные модели открывают перед нами захватывающие перспективы в области создания контента. Решение от FlexiTech.ai на базе Stable Diffusion демонстрирует новый уровень эффективности и гибкости в работе с изображениями. Сочетание глубокой сегментации и универсальности делает это решение выдающимся инструментом для бизнеса, искусства и научных исследований.

2929
7 комментариев

Интересный подход! И модель реально справляется с множеством объектов на одном изображении? Не теряется ли качество сегментации

А можно посмотреть сравнение результатов FlexiTech.ai и pebblely.com? Неужели готовое решение тут не дешевле?

Stable Diffusion действительно кажется перспективным решением, у них уже есть обноавление и это можно реализовать еще проще. Но да, вижу, что кейс не совсем свежий

Модель может работать только с изображениями товаров или это применимо и к другим объектам?

А сколько времени занимает замена фона с помощью вашей модели?

Вы пишете, что модель может учитывать контекст объекта. Это вручную настраивается или полностью автоматизировано?

Спасибо, интересненько