Как ИИ поможет в 3D-моделировании?

На первый взгляд, создание нейросети под создание трехмерного объекта по типу стула кажется относительно простой задачей. Первый взгляд зачастую обманчив. В дискретной реальности ПК, модели состоят из целой совокупности разных данных, а их отображение в реалистичном виде предполагает и интеграцию в движок и воспроизведение цвета/текстуры/фактуры.

Многие ресерчеры не идут по пути генерации сеточной геометрии моделей – все они пытаются отыскать уникальный способ смотреть на трехмерные модели внутри компьютера по-другому. Но для геймдева, рекламы, инженерных отраслей перспектива развития полноценной адекватной технологии – ключ к росту эффективности.

Сегодня создание одной 3D-модели может занимать недели…

Как работают нейронки GAN/CNN/VAE в 3D-моделировании?

Почему игра стоит свеч?

Об этом читайте в нашем новом обзоре стартапа.

В этот раз под наш обзор попал еще совсем закрытый,по степени доступности информации, но многообещающий проект. Представьте себе, генерация 3D-моделей и своих миров, где вы сможете играть и общаться с друзьями, подбирая игровую механику и стиль игры под себя.

В этом обзоре стартапа мы попытаемся немного разобраться в том, как примерно работают нейронные сети, генерирующие подобные 3D-модели и оценим, насколько вообще трудоемко их создание. Ведь 3D – это не просто "картинка", а сложный дискретный математический объект с точки зрения ПК: представление текстур (окраса модели) на трехмерное пространство, отражение и работа со светом, физика тела…

Короче говоря, 3D с точки зрения технической реализации достаточно сложный формат для работы нейросетей, так как любая модель — совокупность ряда данных, которая не заканчивается координатами граней и точек. Хотя и 3D — всегда работа с векторными данными. С другой стороны, многие кодеры начинают оригинально подходит к постановке вопроса. Пусть у нас не будет никакой сетки и корректного отображения модели в "игровом" движке — мы минуем эти этапы и сразу получим красивую и реалистичную картинку.

<p>Велосипед отрендерили по технологии Гауссового сплэттинга</p>

Велосипед отрендерили по технологии Гауссового сплэттинга

Так, например, работает генерация моделей Гауссовскими функциями, где ученые смогли добиться моделирования объекта в реальном времени. Правда, такую модель не засунешь в движок.

Поэтому давайте разберемся, как вообще ИИ-стартапы и ученые решают сложную проблему 3D моделирования. А в конце статьи разберем, какое значение подобные стартапы играют для индустрии и насколько их "авантюра" стоит свеч.

GAN: авангард 3D-моделирования с помощью искусственного интеллекта

Как ИИ поможет в 3D-моделировании?

Генеративно-состязательные сети (GAN) являются авангардом 3D-моделирования с использованием искусственного интеллекта, олицетворяя сдвиг парадигмы в генеративном моделировании. По своей сути GAN состоят из двух антагонистических нейронных сетей: генератора и дискриминатора. Сеть генератора действует как художник, пытаясь синтезировать правдоподобные 3D-модели из случайного шума, в то время как дискриминатор действует как проницательный критик, различая подлинные 3D-модели и модели, созданные генератором.

Процесс состязательного обучения, организованный GAN, создает хрупкое равновесие между этими дуэльными сетями. Генератор итеративно совершенствует свое мастерство в моделировании, стремясь создавать 3D-модели, неотличимые от подлинных аналогов, а дискриминатор выступает как неподкупный критик, устраняющий любые несоответствия.

Чтобы глубже разобраться в технических тонкостях, сеть генераторов обычно использует архитектуру сверточной нейронной сети (CNN), предназначенную для извлечения и синтеза пространственных признаков. Эти слои CNN свертываются по векторам входного шума, постепенно преобразуя их в объемные представления трехмерных фигур.

Одновременно сеть дискриминатора использует аналогичные архитектуры CNN для тщательной проверки подлинности синтезированных 3D-моделей, распознавая сложные пространственные структуры и семантические особенности.

StyleGAN в 2D неплохо генерирует изображения лиц
StyleGAN в 2D неплохо генерирует изображения лиц

Известные варианты GAN, специально предназначенные для создания 3D-моделей: 3D-GAN и StyleGAN. 3D-GAN расширяют структуру GAN на объемные данные, облегчая создание 3D-моделей на основе вокселей с пространственной согласованностью и реализмом. StyleGAN, с другой стороны, представляет синтез на основе “стилей”, позволяющий более точно контролировать художественные атрибуты создаваемых 3D-моделей посредством распутывания скрытых представлений.

Примечательно, что успех GAN в 3D-моделировании зависит не только от архитектурного проектирования, но и от тщательной настройки гиперпараметров, стратегий обучения и управления наборами данных. Методы оптимизации по типу дискриминации мини-пакетов, спектральной нормализации и прогрессивного рост, используются для стабилизации динамики обучения и устранения распространенных ошибок, таких как исчезновение градиентов.

Когда мы обучаем нейронные сети, мы не передаем все данные за один раз, потому что это может быть слишком медленно и затратно. Вместо этого мы передаем данные по небольшим группам, которые и называются мини-пакетами. Короче говоря, мы даем нейронке данные порционно, не перекармливая ее информацией до отказа.

Об исчезновении градиента мы уже писали – рядовая ошибка для многих архитектур нейронок, а особенно для рекуррентных.

Кому интересно, как работает GAN подробно – читайте материал на Medium.

Через призму GAN сфера 3D-моделирования, созданного искусственным интеллектом, выходит за рамки простой имитации, охватывая преобразующую силу состязательного сотрудничества для создания цифровых артефактов беспрецедентной аутентичности и мастерства.

Как ИИ поможет в 3D-моделировании?

Вариационные автокодировщики (VAE) являются одним из краеугольных камней в области искусственного интеллекта в трехмерном моделировании, предлагая обоснованный подход для кодирования латентных представлений трехмерных объектов.

В отличие от GAN, который вступает в такое “корректирующее” противостояние, VAE использует вероятностный метод генерации, стремясь захватить основное распределение вероятностей трехмерных форм в латентном пространстве. В центре VAE лежит архитектура кодировщик-декодировщик, включающая две взаимосвязанные нейронные сети: кодировщик и декодировщик.

Кодировщик пытается сжать входные трехмерные формы в компактные латентные векторы, в то время как декодировщик стремится восстановить оригинальные трехмерные формы из этих латентных векторов. Ключевым моментом в структуре VAE является концепция вариационного вывода, которая нацелена на аппроксимацию апостериорного распределения латентных переменных на основе наблюдаемых данных.

Как ИИ поможет в 3D-моделировании?

Кодировщик обычно включает слои сверточных нейронных сетей (CNN), специально разработанных для извлечения пространственных признаков из входных трехмерных форм. Эти слои CNN сворачивают объемные представления трехмерных объектов, выделяя ключевые пространственные особенности в латентные векторы. В то же время декодировщик использует слои CNN в обратном направлении, преобразуя латентные векторы обратно в объемные представления трехмерных форм через процесс вероятностного декодирования.

Одним из ключевых вызовов при обучении VAE является достижение баланса между точностью восстановления трехмерных форм и богатством представления латентного пространства. Компромисс между точностью восстановления и плавностью латентного пространства часто решается включением техник регуляризации, таких как штрафы за вариационное расхождение и стратегии поэтапной выборки.

Более того, VAE предоставляют естественную основу для разделения основных факторов вариации в трехмерных данных, позволяя пользователям селективно изменять определенные атрибуты, такие как форма, текстура и поза.

Этот контроль на основе атрибутов способствует интуитивному и интерактивному исследованию творческого пространства дизайна, давая возможность создавать уникальные трехмерные модели с непревзойденной гибкостью и изяществом. В заключение, VAE преодолевают традиционные границы детерминированного кодирования, вводя новую эру вероятностного генеративного моделирования, где творчество расцветает в латентных пространствах воображения.

Как ИИ поможет в 3D-моделировании?

Сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN) служат основополагающими столпами в области трехмерного моделирования на основе искусственного интеллекта, каждая из которых наделена уникальными возможностями для захвата пространственного и последовательного контекста в трехмерных данных.

Сверточные нейронные сети (CNN) : CNN превосходно анализируют пространственные особенности и закономерности в объемных представлениях трехмерной геометрии. Эти нейронные архитектуры используют сверточные слои для извлечения иерархических представлений пространственной информации, позволяя обнаруживать сложные формы, текстуры и структурные элементы в 3D-моделях.

Как ИИ поможет в 3D-моделировании?

Путем свертки входных тензоров с обучаемыми фильтрами CNN эффективно фиксируют локальные пространственные корреляции и абстрагируют функции более высокого уровня, необходимые для понимания и синтеза трехмерных форм.

Рекуррентные нейронные сети (RNN)

С другой стороны, RNN специализируются на моделировании последовательных зависимостей и временной динамики, свойственной последовательным трехмерным данным. В отличие от нейронных сетей прямого распространения, RNN обладают повторяющимися связями, которые позволяют информации сохраняться во времени, облегчая моделирование последовательных шаблонов и долгосрочных зависимостей. В контексте 3D-моделирования RNN можно использовать для фиксации временных изменений в эволюции формы, траекториях движения или последовательных операциях в задачах процедурного моделирования.

Гибридные архитектуры

Синергия между CNN и RNN в гибридных архитектурах предлагает целостный подход к синтезу 3D-моделей, одновременно используя как пространственный, так и последовательный контекст. Интегрируя CNN для извлечения пространственных признаков и RNN для временного моделирования, гибридные архитектуры могут эффективно фиксировать как статические геометрические свойства, так и динамические временные изменения в трехмерных данных.

Такое слияние пространственного и последовательного контекста обеспечивает более полное и контекстуально богатое представление трехмерных сцен, позволяя моделям ИИ лучше понимать и генерировать сложные пространственно-временные явления по типу анимации:

  • Генерация и реконструкция форм из облаков точек или воксельных сеток.
  • Семантическая сегментация и анализ сцен для понимания 3D-сцен.
  • Прогнозирование движения и прогнозирование траектории в динамических 3D-средах.
  • Процедурное создание анимационных последовательностей или интерактивных впечатлений.

Таким образом, интеграция CNN и RNN в 3D-моделирование на основе искусственного интеллекта облегчает целостный анализ пространственного и временного контекста в 3D-данных, позволяя моделям ИИ синтезировать реалистичные и последовательные представления динамических 3D-сцен с повышенной точностью и выразительностью.

Мы кратко задели вопрос о способах 3D-моделирования, так как сами технологии зачастую включают в себя генетические алгоритмы, о которых вы узнаете только в конце курса из-за своей технической сложности. Но почему такая “технически” трудоемкая проблема 3D-моделирования привлекает “искателей” идей для стартапов и инвесторов?

Как работает EGO и почему их авантюра имеет смысл

На самом деле, EGO, вероятно, включает в себя самые современные методы интеграции CNN, RNN или работает на мультимодальном обучении, чтобы захватить данные естественного языка под запросы пользователей и научиться генерировать нужные модели. Понятно дело, на стадии даже презентации EGO не блещет уровнем кинематографичного-гейм дизайна, но возникновение подобных стартапов – явный плюс для игровой индустрии.

Использование генеративно-состязательных сетей (GAN) и сверточных нейронных сетей (CNN) в пайплайне производства 3D моделей может революционизировать индустрию. GAN позволяют генерировать новые текстуры и формы, учитывая структуру и стиль входных данных, в то время как CNN эффективно анализируют пространственные особенности геометрии моделей и изображений. Получается генерация моделей с минимальным участием художников.

В области риггинга, GAN и CNN могут автоматизировать процесс создания скелетных структур и анимационных ригов, используя геометрические особенности моделей. В сфере рендеринга, GAN и CNN могут создавать улучшенные текстуры и эффекты, обогащая визуальные аспекты игры и усиливая атмосферу.

Существует несколько способов сокращения бюджета гейм-студий: создание полностью game-ready моделей, либо внедрение нейронки в пайплайн. Почему такие проекты выгодны среди фаундеров? Использование CNN и RNN в игровых студиях позволяет значительно упростить и оптимизировать процесс создания игр, сократить время разработки и снизить затраты на производство контента. Фаундеры могут достичь большего успеха на рынке, предложив качественные игры с меньшими затратами и быстрее, чем конкуренты.

Кроме того, использование передовых технологий, таких как CNN и RNN, может придать играм конкурентное преимущество и привлечь больше внимания со стороны игроков и инвесторов просто за счет марки “ИИ” в описании стартапа.

Как ИИ поможет в 3D-моделировании?

Компания разработала даже свой 3D-генератор городского окружения, "TownWorld" — виртуальные города с параметрами (географическое расположение, архитектура и население с движением, социальные взаимодействиями, потреблением ресурсов и экономическими условиями, развитием и динамикой городского общества).

Ego – это не только система генерации 3D-моделей, но и особый мощный движок, который смог бы имитировать мир флагманских игр.

В любом случае, инвесторы оценили проект в несколько миллионов евро, выделив деньги из своего кошелька.

Начать дискуссию