Pixar напрягся
Будни офиса Miro
Бонобо Канзи
Рабочее место для кота
Протесты против Маска
«Офису» — 20 лет
Ламба из картона
Дорожка для аквабега
Jaguar Type 00 в Париже
Xiaomi SU7 Ultra
Полёт над Луной
Автопилот Tesla на бездорожье
«Игровые» Google Maps

Stability AI представили ИИ виртуальную камеру: генерация многовидового видео с управлением 3D-камерой

Представляем стабильную виртуальную камеру, которая в настоящее время находится в стадии предварительного просмотра. Эта многовидовая диффузионная модель преобразует 2D-изображения в захватывающие 3D-видео с реалистичной глубиной и перспективой - без сложной реконструкции или оптимизации для конкретной сцены.

Модель генерирует 3D-видео из одного входного изображения или до 32, следуя заданным пользователем траекториям камеры, а также 14 другим динамическим траекториям камеры, включая 360 °, лемнискат, спираль, масштабирование, перемещение, панорамирование и крен.

Стабильная виртуальная камера доступна для исследовательского использования по некоммерческой лицензии. Вы можете прочитать статью здесь, скачать утяжелители для Hugging Face и получить доступ к коду на GitHub.

Сегодня мы выпускаем стабильную виртуальную камеру, которая в настоящее время находится в стадии предварительного просмотра. Эта многовидовая диффузионная модель преобразует 2D-изображения в захватывающие 3D-видео с реалистичной глубиной и перспективой - без сложной реконструкции или оптимизации для конкретной сцены. Мы приглашаем исследовательское сообщество изучить ее возможности и внести свой вклад в ее развитие.

Виртуальная камера - это цифровой инструмент, используемый в кинопроизводстве и 3D-анимации для захвата цифровых сцен и навигации по ним в режиме реального времени. Стабильная виртуальная камера основана на этой концепции, сочетая привычное управление традиционными виртуальными камерами с возможностями генерирующего искусственного интеллекта для обеспечения точного и интуитивно понятного управления выводом 3D-видео.

В отличие от традиционных моделей 3D-видео, которые полагаются на большие наборы входных изображений или сложную предварительную обработку, стабильная виртуальная камера создает новые виды сцены из одного или нескольких входных изображений под заданными пользователем углами камеры. Модель обеспечивает последовательный и плавный вывод 3D-видеосигнала, обеспечивая плавную траекторию движения по динамическим траекториям камеры.

Модель доступна для исследовательского использования по некоммерческой лицензии. Вы можете прочитать статью здесь, загрузить утяжелители для Hugging Face и получить доступ к коду на GitHub.

Модель создана на основании Stable Video. Пример генерации из сервиса KolerskyAI

Возможности

Стабильная виртуальная камера предлагает расширенные возможности для генерации 3D-видео, в том числе:

  • Динамическое управление камерой: Поддерживает заданные пользователем траектории камеры, а также несколько динамических траекторий камеры, в том числе: 360 °, лемнискат (траектория в форме∞), спираль, увеличение и уменьшение масштаба, увеличение и уменьшение масштаба, перемещение вперед, перемещение назад, панорамирование вверх, панорамирование вниз, панорамирование влево, панорамирование вправо и поворот.
  • Гибкие входные данные: генерирует 3D-видео всего из одного входного изображения или до 32.
  • Несколько соотношений сторон: возможность создавать видео в квадратном (1: 1), портретном (9: 16), альбомном (16: 9) и других пользовательских соотношениях сторон без дополнительной подготовки.
  • Генерация длинного видео: обеспечивает согласованность 3D в видеороликах до 1000 кадров, обеспечивая плавные циклы и переходы, даже при повторном просмотре с одних и тех же точек обзора.

Исследования и архитектура модели

Стабильная виртуальная камера обеспечивает самые современные результаты в новых тестах view synthesis (NVS), превосходя такие модели, как ViewCrafter и CAT3D. Он превосходит как NV с большой точкой обзора, что подчеркивает мощность генерации, так и NV с малой точкой обзора, в которой приоритет отдается временной плавности.

Stability AI представили ИИ виртуальную камеру: генерация многовидового видео с управлением 3D-камерой

Стабильная виртуальная камера обучается с фиксированной длиной последовательности как многовидовая диффузионная модель, принимая заданное количество входных и целевых просмотров (M-in, N-out).

Стабильная виртуальная камера обучается как многовидовая диффузионная модель с фиксированной длиной последовательности, используя заданное количество входных и целевых просмотров (M-in, N-out). Во время выборки он функционирует как гибкий инструмент генеративного рендеринга, позволяющий изменять длину ввода и вывода (P-in, Q-out). Это достигается за счет двухпроходного процедурного процесса выборки — сначала генерируются привязочные виды, затем рендерятся целевые виды частями для обеспечения плавных и последовательных результатов.

Стабильная виртуальная камера использует процедурную двухпроходную выборку для обработки любого количества входных и целевых просмотров
Стабильная виртуальная камера использует процедурную двухпроходную выборку для обработки любого количества входных и целевых просмотров

Чтобы глубже погрузиться в архитектуру и производительность модели, вы можете прочитать полный исследовательский документ здесь.

Ограничения модели

В своей начальной версии стабильная виртуальная камера в определенных сценариях может выдавать результаты более низкого качества. Входные изображения с участием людей, животных или динамических текстур, таких как вода, часто приводят к ухудшению результатов. Кроме того, очень неоднозначные сцены, сложные траектории движения камеры, пересекающие объекты или поверхности, и объекты неправильной формы могут вызывать артефакты мерцания, особенно когда целевые точки обзора значительно отличаются от входных изображений.

Начало работы

Стабильную виртуальную камеру можно бесплатно использовать в исследовательских целях по некоммерческой лицензии. Вы можете прочитать статью и загрузить гири на Hugging Face и код на GitHub.

Чтобы быть в курсе наших достижений, подписывайтесь на X, LinkedIn, Instagram и присоединяйтесь к нашему сообществу Discord.

реклама
разместить
Начать дискуссию
Hugging Face: где искать бесплатные нейросети

На площадке можно сгенерировать корги с блинчиками, записать озвучку и придумать ещё больше промптов.

Hugging Face: где искать бесплатные нейросети
44
11
11
реклама
разместить
Как пользоваться нейросетью HunyuanVideo для генерации видео

Китайская модель создаёт пятисекундные фрагменты по текстовому описанию.

77
SEO продвижение сайтов внутренними поведенческими факторами

Внимание, маркетологи и предприниматели!

Революция в мире ИИ-видео: Mirage создаёт виртуальных людей, которые выглядят как настоящие

💡 Будущее уже здесь: виртуальные актёры без границ

11
Вышел новый китайский генератор изображений

И он имеет все шансы стать новым горячим пирожком. И (все как мы любим!) темная лошадка. Первые отзывы очень хорошие, и модель может быть полезна всем: от маркетологов и продавцов на маркетплейсах до художников.

11
Как получить доступ и генерировать видео в Veo 2 в России без регистрации и трудностей с оплатой
Как получить доступ и генерировать видео в Veo 2 в России без регистрации и трудностей с оплатой

Спустя несколько дней после презентации Sora от OpenAI Google запустила Veo 2.0 - свою новейшую и наиболее совершенную ИИ-модель для генерации видео. Обновленная версия Veo включает ряд действительно впечатляющих функций, таких, как усовершенствованное управление камерой и существенно улучшенное качество по сравнению с предшественницей.

1111
11
Нейросеть Hailuo MiniMax S2V-01: Видео, в котором вы — главный герой

Здравствуйте, дорогие читатели! Меня зовут Макс Олимпов! Сегодня я расскажу о новом революционном продукте в мире искусственного интеллекта — нейросети Hailuo MiniMax S2V-01. Это не просто очередной инструмент для обработки данных или создания контента, а настоящий прорыв, который может изменить то, как мы воспринимаем видеоконтент. Если вы думаете…

Нейросеть Hailuo MiniMax S2V-01: Видео, в котором вы — главный герой
11
Школа ИИ-видео: 20 движений камеры, которые вам стоит попробовать с AI-видеогенераторами (часть 3). «Сложные» движения камеры.
Школа ИИ-видео: 20 движений камеры, которые вам стоит попробовать с AI-видеогенераторами (часть 3). «Сложные» движения камеры.
22
Школа ИИ-видео: 20 движений камеры, которые вам точно стоит попробовать, если вы делаете ИИ-видео (часть 1)
Оператор снимает ужастик и поднимает драматизм движением камеры
11
реклама
разместить
Разбор управления камерой у новой модели Minimax
Разбор управления камерой у новой модели Minimax

Минимакс выпустил новую модель "T2V-01-Director". Главная фишка - точечное управление движением камеры.

11
Open-Sora 2.0 соответствует конкурентным ИИ видеомоделям при снижении затрат на обучение на 90%

Компания HPC-AI Tech разработала новую модель искусственного интеллекта для генерации видео, которая обеспечивает качество коммерческого уровня примерно за одну десятую от обычных затрат на обучение за счет использования новых методов сжатия.

11
[]