Как ИИ поможет в 3D-моделировании?

На первый взгляд, создание нейросети под создание трехмерного объекта по типу стула кажется относительно простой задачей. Первый взгляд зачастую обманчив. В дискретной реальности ПК, модели состоят из целой совокупности разных данных, а их отображение в реалистичном виде предполагает и интеграцию в движок и воспроизведение цвета/текстуры/фактуры.

Многие ресерчеры не идут по пути генерации сеточной геометрии моделей – все они пытаются отыскать уникальный способ смотреть на трехмерные модели внутри компьютера по-другому. Но для геймдева, рекламы, инженерных отраслей перспектива развития полноценной адекватной технологии – ключ к росту эффективности.

Сегодня создание одной 3D-модели может занимать недели…

Как работают нейронки GAN/CNN/VAE в 3D-моделировании?

Почему игра стоит свеч?

Об этом читайте в нашем новом обзоре стартапа.

https://www.youtube.com/watch?v=6mPWFFTYebU&ab_channel=PeggyWang

В этот раз под наш обзор попал еще совсем закрытый,по степени доступности информации, но многообещающий проект. Представьте себе, генерация 3D-моделей и своих миров, где вы сможете играть и общаться с друзьями, подбирая игровую механику и стиль игры под себя.

В этом обзоре стартапа мы попытаемся немного разобраться в том, как примерно работают нейронные сети, генерирующие подобные 3D-модели и оценим, насколько вообще трудоемко их создание. Ведь 3D – это не просто "картинка", а сложный дискретный математический объект с точки зрения ПК: представление текстур (окраса модели) на трехмерное пространство, отражение и работа со светом, физика тела…

Короче говоря, 3D с точки зрения технической реализации достаточно сложный формат для работы нейросетей, так как любая модель — совокупность ряда данных, которая не заканчивается координатами граней и точек. Хотя и 3D — всегда работа с векторными данными. С другой стороны, многие кодеры начинают оригинально подходит к постановке вопроса. Пусть у нас не будет никакой сетки и корректного отображения модели в "игровом" движке — мы минуем эти этапы и сразу получим красивую и реалистичную картинку.

<p>Велосипед отрендерили по технологии Гауссового сплэттинга</p>

Так, например, работает генерация моделей Гауссовскими функциями, где ученые смогли добиться моделирования объекта в реальном времени. Правда, такую модель не засунешь в движок.

Поэтому давайте разберемся, как вообще ИИ-стартапы и ученые решают сложную проблему 3D моделирования. А в конце статьи разберем, какое значение подобные стартапы играют для индустрии и насколько их "авантюра" стоит свеч.

Генеративно-состязательные сети (GAN) являются авангардом 3D-моделирования с использованием искусственного интеллекта, олицетворяя сдвиг парадигмы в генеративном моделировании. По своей сути GAN состоят из двух антагонистических нейронных сетей: генератора и дискриминатора. Сеть генератора действует как художник, пытаясь синтезировать правдоподобные 3D-модели из случайного шума, в то время как дискриминатор действует как проницательный критик, различая подлинные 3D-модели и модели, созданные генератором.

Процесс состязательного обучения, организованный GAN, создает хрупкое равновесие между этими дуэльными сетями. Генератор итеративно совершенствует свое мастерство в моделировании, стремясь создавать 3D-модели, неотличимые от подлинных аналогов, а дискриминатор выступает как неподкупный критик, устраняющий любые несоответствия.

Чтобы глубже разобраться в технических тонкостях, сеть генераторов обычно использует архитектуру сверточной нейронной сети (CNN), предназначенную для извлечения и синтеза пространственных признаков. Эти слои CNN свертываются по векторам входного шума, постепенно преобразуя их в объемные представления трехмерных фигур.

Одновременно сеть дискриминатора использует аналогичные архитектуры CNN для тщательной проверки подлинности синтезированных 3D-моделей, распознавая сложные пространственные структуры и семантические особенности.

StyleGAN в 2D неплохо генерирует изображения лиц

Известные варианты GAN, специально предназначенные для создания 3D-моделей: 3D-GAN и StyleGAN. 3D-GAN расширяют структуру GAN на объемные данные, облегчая создание 3D-моделей на основе вокселей с пространственной согласованностью и реализмом. StyleGAN, с другой стороны, представляет синтез на основе “стилей”, позволяющий более точно контролировать художественные атрибуты создаваемых 3D-моделей посредством распутывания скрытых представлений.

Примечательно, что успех GAN в 3D-моделировании зависит не только от архитектурного проектирования, но и от тщательной настройки гиперпараметров, стратегий обучения и управления наборами данных. Методы оптимизации по типу дискриминации мини-пакетов, спектральной нормализации и прогрессивного рост, используются для стабилизации динамики обучения и устранения распространенных ошибок, таких как исчезновение градиентов.

Когда мы обучаем нейронные сети, мы не передаем все данные за один раз, потому что это может быть слишком медленно и затратно. Вместо этого мы передаем данные по небольшим группам, которые и называются мини-пакетами. Короче говоря, мы даем нейронке данные порционно, не перекармливая ее информацией до отказа.

Об исчезновении градиента мы уже писали – рядовая ошибка для многих архитектур нейронок, а особенно для рекуррентных.

Кому интересно, как работает GAN подробно – читайте материал на Medium.

Через призму GAN сфера 3D-моделирования, созданного искусственным интеллектом, выходит за рамки простой имитации, охватывая преобразующую силу состязательного сотрудничества для создания цифровых артефактов беспрецедентной аутентичности и мастерства.

Вариационные автокодировщики (VAE) являются одним из краеугольных камней в области искусственного интеллекта в трехмерном моделировании, предлагая обоснованный подход для кодирования латентных представлений трехмерных объектов.

В отличие от GAN, который вступает в такое “корректирующее” противостояние, VAE использует вероятностный метод генерации, стремясь захватить основное распределение вероятностей трехмерных форм в латентном пространстве. В центре VAE лежит архитектура кодировщик-декодировщик, включающая две взаимосвязанные нейронные сети: кодировщик и декодировщик.

Кодировщик пытается сжать входные трехмерные формы в компактные латентные векторы, в то время как декодировщик стремится восстановить оригинальные трехмерные формы из этих латентных векторов. Ключевым моментом в структуре VAE является концепция вариационного вывода, которая нацелена на аппроксимацию апостериорного распределения латентных переменных на основе наблюдаемых данных.

Кодировщик обычно включает слои сверточных нейронных сетей (CNN), специально разработанных для извлечения пространственных признаков из входных трехмерных форм. Эти слои CNN сворачивают объемные представления трехмерных объектов, выделяя ключевые пространственные особенности в латентные векторы. В то же время декодировщик использует слои CNN в обратном направлении, преобразуя латентные векторы обратно в объемные представления трехмерных форм через процесс вероятностного декодирования.

Одним из ключевых вызовов при обучении VAE является достижение баланса между точностью восстановления трехмерных форм и богатством представления латентного пространства. Компромисс между точностью восстановления и плавностью латентного пространства часто решается включением техник регуляризации, таких как штрафы за вариационное расхождение и стратегии поэтапной выборки.

Более того, VAE предоставляют естественную основу для разделения основных факторов вариации в трехмерных данных, позволяя пользователям селективно изменять определенные атрибуты, такие как форма, текстура и поза.

Этот контроль на основе атрибутов способствует интуитивному и интерактивному исследованию творческого пространства дизайна, давая возможность создавать уникальные трехмерные модели с непревзойденной гибкостью и изяществом. В заключение, VAE преодолевают традиционные границы детерминированного кодирования, вводя новую эру вероятностного генеративного моделирования, где творчество расцветает в латентных пространствах воображения.

Сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN) служат основополагающими столпами в области трехмерного моделирования на основе искусственного интеллекта, каждая из которых наделена уникальными возможностями для захвата пространственного и последовательного контекста в трехмерных данных.

Сверточные нейронные сети (CNN) : CNN превосходно анализируют пространственные особенности и закономерности в объемных представлениях трехмерной геометрии. Эти нейронные архитектуры используют сверточные слои для извлечения иерархических представлений пространственной информации, позволяя обнаруживать сложные формы, текстуры и структурные элементы в 3D-моделях.

Путем свертки входных тензоров с обучаемыми фильтрами CNN эффективно фиксируют локальные пространственные корреляции и абстрагируют функции более высокого уровня, необходимые для понимания и синтеза трехмерных форм.

Рекуррентные нейронные сети (RNN)

С другой стороны, RNN специализируются на моделировании последовательных зависимостей и временной динамики, свойственной последовательным трехмерным данным. В отличие от нейронных сетей прямого распространения, RNN обладают повторяющимися связями, которые позволяют информации сохраняться во времени, облегчая моделирование последовательных шаблонов и долгосрочных зависимостей. В контексте 3D-моделирования RNN можно использовать для фиксации временных изменений в эволюции формы, траекториях движения или последовательных операциях в задачах процедурного моделирования.

Гибридные архитектуры

Синергия между CNN и RNN в гибридных архитектурах предлагает целостный подход к синтезу 3D-моделей, одновременно используя как пространственный, так и последовательный контекст. Интегрируя CNN для извлечения пространственных признаков и RNN для временного моделирования, гибридные архитектуры могут эффективно фиксировать как статические геометрические свойства, так и динамические временные изменения в трехмерных данных.

Такое слияние пространственного и последовательного контекста обеспечивает более полное и контекстуально богатое представление трехмерных сцен, позволяя моделям ИИ лучше понимать и генерировать сложные пространственно-временные явления по типу анимации:

Генерация и реконструкция форм из облаков точек или воксельных сеток.
Семантическая сегментация и анализ сцен для понимания 3D-сцен.
Прогнозирование движения и прогнозирование траектории в динамических 3D-средах.
Процедурное создание анимационных последовательностей или интерактивных впечатлений.

Таким образом, интеграция CNN и RNN в 3D-моделирование на основе искусственного интеллекта облегчает целостный анализ пространственного и временного контекста в 3D-данных, позволяя моделям ИИ синтезировать реалистичные и последовательные представления динамических 3D-сцен с повышенной точностью и выразительностью.

Мы кратко задели вопрос о способах 3D-моделирования, так как сами технологии зачастую включают в себя генетические алгоритмы, о которых вы узнаете только в конце курса из-за своей технической сложности. Но почему такая “технически” трудоемкая проблема 3D-моделирования привлекает “искателей” идей для стартапов и инвесторов?

На самом деле, EGO, вероятно, включает в себя самые современные методы интеграции CNN, RNN или работает на мультимодальном обучении, чтобы захватить данные естественного языка под запросы пользователей и научиться генерировать нужные модели. Понятно дело, на стадии даже презентации EGO не блещет уровнем кинематографичного-гейм дизайна, но возникновение подобных стартапов – явный плюс для игровой индустрии.

Использование генеративно-состязательных сетей (GAN) и сверточных нейронных сетей (CNN) в пайплайне производства 3D моделей может революционизировать индустрию. GAN позволяют генерировать новые текстуры и формы, учитывая структуру и стиль входных данных, в то время как CNN эффективно анализируют пространственные особенности геометрии моделей и изображений. Получается генерация моделей с минимальным участием художников.

В области риггинга, GAN и CNN могут автоматизировать процесс создания скелетных структур и анимационных ригов, используя геометрические особенности моделей. В сфере рендеринга, GAN и CNN могут создавать улучшенные текстуры и эффекты, обогащая визуальные аспекты игры и усиливая атмосферу.

Существует несколько способов сокращения бюджета гейм-студий: создание полностью game-ready моделей, либо внедрение нейронки в пайплайн. Почему такие проекты выгодны среди фаундеров? Использование CNN и RNN в игровых студиях позволяет значительно упростить и оптимизировать процесс создания игр, сократить время разработки и снизить затраты на производство контента. Фаундеры могут достичь большего успеха на рынке, предложив качественные игры с меньшими затратами и быстрее, чем конкуренты.

Кроме того, использование передовых технологий, таких как CNN и RNN, может придать играм конкурентное преимущество и привлечь больше внимания со стороны игроков и инвесторов просто за счет марки “ИИ” в описании стартапа.

Компания разработала даже свой 3D-генератор городского окружения, "TownWorld" — виртуальные города с параметрами (географическое расположение, архитектура и население с движением, социальные взаимодействиями, потреблением ресурсов и экономическими условиями, развитием и динамикой городского общества).

Ego – это не только система генерации 3D-моделей, но и особый мощный движок, который смог бы имитировать мир флагманских игр.

В любом случае, инвесторы оценили проект в несколько миллионов евро, выделив деньги из своего кошелька.

GAN: авангард 3D-моделирования с помощью искусственного интеллекта

Как работает EGO и почему их авантюра имеет смысл