Alibaba запустила виртуальную примерку Outfit Anyone
Дословно “Outfit Anyone” — одень любого. И это действительно похоже на правду. Рассказываю суть новации и чем отличие от того, что уже есть на рынке.
Суть фишки
Можно примерить любую одежду: обычную и экстравагантную:
На телах различной комплекции и возраста:
А можно сделать примерку и анимацию одновременно или примерить на аниме:
Outfit Anybody включает два элемента:
1) Примерка изображений с помощью сети Zero-shot Try-on Network
2) Итоговые изображения с лучшенной текстурой одежды и кожи с помощью Post-hoc Refiner.
Думаю, не стоит говорить, что все это сделано с помощью нейросетей, за этим стоят сложные модели. Как и когда мы сможем воспользоваться, пока непонятно, но точно увидим на Aliexpress в ближайшем будущем.
В чем новация?
Ведь и сейчас можно было генерировать высококачественные и фотореалистичные изображения.
Все так, но одно дело генерить абстрактные изображения, а другое — подстроить конкретное изображение (одежду) под конкретную модель (вас). Нужно согласовать много деталей между собой, и в этом сложность. Вряд ли вас устроит примерка вещи, слегка похожей на желаемую, на модели, которая отдаленно напоминает вас. Причем сделать так, чтобы одежда именно “сидела”, а не висела. Итог — реалистичная примерка на основе одного фото, это первое.
Разработчики заявляют, что Outfit Anyone решает эти задачи и умело справляется с деформацией одежды для получения реалистичных результатов. Сервис может учитывать такие факторы, как поза и форма тела, может быть применен и на аниме, и на изображениях в дикой природе. Свои решения Alibaba называет Conditional Diffusion models (модели условной диффузии) — потому что они должны учесть много условий и органично "спаять" в единое целое все составляющие (см. картинку ниже).
Во-вторых, удалось сделать реалистичную анимацию только по одному фото. Это сделано на основе технологии Animate Anyone (анимируй любого). Для этого достаточно одной фотки человека или персонажа. На их основе Animate Anyone генерирует вполне реалистичную анимацию, и делает это лучше других существовавших ранее решений.
Для обучения модели использовались 5 тысяч видеороликов с персонажами. Чтобы теперь можно было получить реалистичную анимацию всего лишь на основе одного фото.