Динозавр с копьем на набережной в г. Воронеж или как слова превратить в 3D модель?

Создание изображения по текстовому запросу (промту) сейчас воспринимается как "магия бытовая, обыкновенная", по аналогии с электричеством - технические детали реализации не всем понятны, но совершенно не мешает использовать это в жизни и работе. ИИ умеет генерировать (анализировать, обрабатывать) не только текст и изображения, но уже и видео, и даже 3D модели. В статье простыми словами и на примерах рассмотрим как из словесного описания объекта дойти до его воплощения в реальности (пусть и дополненной).

Раскрытие интриги)

Не идеально. Но! модель сделана по одной единственной иллюстрации. ИИ “домыслил” объем и тело динозавра. Это поражает не только технологичностью, но и перспективами/потенциалом практического применения.

В конце статьи есть ссылка на виджет, чтобы посмотреть динозавра в 3D самостоятельно.

Статья написана после публикации в открытом доступе нейронной сети VFusion3D (продукт одной запрещенной компании), которая позволяет упростить создание 3D контента, что востребовано в сферах: геймдева, дизайна, электронной коммерции, маркетинга, арх.визуализации и др.

В статье кратко изложены основные шаги: генерируем иллюстрацию по текстовому запросу, из картинки создаем 3D модель, чуть работы руками, смотрим результат в 3D и дополненной реальности. Технические детали опущены, но приведены ссылки на источники.

Шаг 1. Делаем эскиз

Для генерации изображения воспользуемся сервисом генерации изображения по тексту (text-to-image): https://www.midjourney.com/

Запрос (промт) по которому сервис создаст изображение использовался следующий:

(ru) Мультипликационный динозавр стоит в полный рост и держит копье в лапах. Кожа гладкая. Смотрит прямо, видно оба глаза. В стиле мультика. Белый фон.

(en) Cartoon dinosaur standing at full height and holding a spear in its paws. Smooth skin. Looking straight ahead, both eyes visible. Cartoon style. White background.

Шаг 2. Придаем объем

Для создания 3D модели из изображения (image-to-3D) воспользуемся нейронной сетью - VFusion3D (подробнее о ней тут: https://junlinhan.github.io/projects/vfusion3d.html).

Есть два пути:

1. Налево - демо приложение доступное для экспериментов: https://huggingface.co/spaces/facebook/VFusion3D

2. Направо - развернуть нейронную сеть у себя.

Пришлось разворачивать у себя, т.к. сервис на huggingface был перегружен постоянно (возможно, на момент когда вы читаете, уже не перегружен, попробуйте).

Самый короткий путь - скачать целиком обертку gradio c https://huggingface.co/spaces/facebook/VFusion3D/tree/main

Развернули сервис, запустили генерацию, которая на Macbook Pro M3/18 заняла 8мин (но параметр mesh_size был увеличен до 1024).

Динозавр с копьем на набережной в г. Воронеж или как слова превратить в 3D модель?

Шаг 3. Чуть еще ловкости рук

Формально - 3D модель готова, но:

- не оптимизирована полигональная сетка и модель весьма тяжелая,

- неправильное положение модели по осям,- цвета заданы через грани.

Переворачиваем модель, упрощаем сетку, применяем модификатор сглаживания, делаем автоматическую развертку и запекаем текстуру.

Шаг 4. Воплощаем в реальности

Чтобы показать 3D модель воспользуемся сервисом Zarbo: https://embed.zarbo.tech/64606eab-0c84-495d-9ea9-e4af1463507f/6173/

Как создать такой виджет есть тут: https://youtu.be/dsaE4qcO_JQ?si=S-xFXrokXWhWddbb или тут: https://vk.com/video841739240_456239022

Практического смысла в создании 3D модели из изображения, в том качестве, которое обеспечивает VFusion3D, сейчас, наверное, нет. И тут ключевое “сейчас”, т.к. с той скоростью развития AI решений, которую мы имеем, есть основания предположить, что в скором времени появится возможность создания низкополигональных моделей для геймдева, реалистичных и оптимизированных моделей товаров для ecom, высокодетальных моделей для арх.визуализаторов.

Посмотрите на прогресс Midjourney за два года:

Смотря на первые генерации изображений в 2022 г. (вот как на примере слева), мне казалось что ИИ никогда не повторит возможности профессионального иллюстратора. Теперь, смотря на первые генерации 3D, скепсиса уже меньше)

Динозавр с копьем на набережной в г. Воронеж или как слова превратить в 3D модель?

Сразу к результату

Вроде бы понятно о чем речь, но не очень

Создаем 3D модель

Заключение