{"id":14292,"url":"\/distributions\/14292\/click?bit=1&hash=23aed192f809013ec1c0769a11eb00fbed4dd7038bbe5f8e3db447db2e792dcd","title":"\u0421 \u043d\u0430\u0447\u0430\u043b\u0430 \u0433\u043e\u0434\u0430 \u043a\u0430\u0440\u0442\u043e\u0439 \u00ab\u0425\u0430\u043b\u0432\u0430\u00bb \u043e\u043f\u043b\u0430\u0442\u0438\u043b\u0438 40 \u043c\u043b\u043d \u043f\u043e\u043a\u0443\u043f\u043e\u043a","buttonText":"","imageUuid":""}

14 дек 2023 14.12.2023

20 лучших генераторов видео на базе искусственного интеллекта (2023)

В нынешнем ландшафте искусственного интеллекта применение ИИ в генерации текста и изображений привело к процветанию, с постоянным развитием соответствующих технологий. Однако в сравнении с ними разработки в области генерации видео с использованием ИИ пока не достигли прорывных результатов. Существуют два основных типа генерации видео: текст-в-видео и изображение-в-видео, которые создают видео на основе текста и изображений соответственно, используя генеративные модели ИИ.
По мере улучшения и совершенствования технологий генерации текста-в-изображение и изображение-в-изображение, разработка и внимание к генерации текст/изображение-в-видео постепенно эволюционируют и увеличиваются. Основные технические рамки для генерации текста-в-изображение и текст/изображение-в-видео довольно схожи и включают в себя три основных подхода: генеративно-состязательные сети (GAN), авторегрессионные модели и модели диффузии.
Ниже приведены некоторые коммерческие генераторы видео, а также проекты по генерации видео с открытым исходным кодом:

1. PromeAI

Алгоритм генерации видео от PromeAI основан на собственном алгоритме, разработанном в Лаборатории LibAI. Он обладает способностью создавать высококачественные видео, которые одновременно реалистичны и связны. При этом работа с ним невероятно проста, для генерации видео требуется всего одно предложение описания.
Помимо поддержки генерации видео на основе текста, PromeAI также предлагает поддержку функций обработки изображений, таких как генерация текста-в-изображение, генерация изображений-в-изображение, замена фона, расширение кадра, восстановление изображений и другие популярные возможности.

2. Runway

Runway - ведущий поставщик программного обеспечения для редактирования изображений и видео на основе генеративного искусственного интеллекта. В настоящее время это один из коммерчески доступных видеогенераторов для потребителей. Компания была основана в 2018 году Кристобалом Валенсуэлой, Алехандро Матамалой и Анастасисом Германидисом. Изначально ориентировавшись на трансформацию изображений, Runway расширила свою деятельность в область редактирования и создания видео с применением искусственного интеллекта и компьютерной графики.
Технология Runway нашла широкое применение в кино-, телевизионной и рекламной индустриях. Команда визуальных эффектов, работавшая над фильмом, награжденным Оскаром 'Everything Everywhere All At Once', использовала технологию Runway для создания определенных сцен.

3. Pika Labs

Совсем недавно был выпущен Pika 1.0 и быстро привлек широкое внимание. Компания, стоящая за ним - Pika, была создана в апреле этого года, и после более чем шести месяцев тестирования в сообществе Discord они решили, что настало время для этого значительного обновления. По сравнению с предыдущей версией, Pika 1.0 предлагает еще больше функций.
Он не только создает видео на основе текста или изображений, но также позволяет частичное редактирование видео. Несмотря на то, что Pika была создана всего полгода назад, она уже собрала более 520 000 пользователей.

4. Moonvalley

Moonvalley - компания, специализирующаяся на генеративном искусственном интеллекте и инкубированная Y-Combinator, выпустила мощный генератор текст-в-видео. С помощью простых текстовых подсказок он способен создавать видео высокой четкости в формате 16:9 с кинематографическим качеством. В настоящее время находясь в бета-стадии, Moonvalley предлагает свои услуги абсолютно бесплатно и использует Discord в качестве интерфейса пользователя. Система в настоящее время предлагает пять стилей видео, таких как аниме, фэнтези, реализм и 3D-анимация. Пользователи также могут выбирать длительность видео - короткое (примерно 1 секунда), среднее (3 секунды) и длинное (5 секунд).

5. Morph Studio

Morph Studio в настоящее время находится на ранних этапах своей предпринимательской деятельности. Компания была основана в апреле этого года и недавно завершила раунд финансирования начального этапа на сумму нескольких миллионов долларов в мае. Команда разработчиков использует модели диффузии для обучения своего видеогенератора. Эта модель обеспечивает как визуальную согласованность, так и точность в создании видео на основе текстовых подсказок.

6. Neverends

На 1 декабря, восходящая звезда в области AI-видео, NeverEnds, представила значительное обновление с версией 2.0, введя функцию генерации видео изображений и поддержку мобильного опыта. В настоящее время NeverEnds предлагает две основные функции: генерацию видео из текста и генерацию видео изображений.

В официальном описании NeverEnds подчеркивается отличие этого инструмента AI-видео от других топовых инструментов, таких как Runway и Pika:

Создание AI-видео с улучшенной реалистичностью и практичностью.
Усиление характеризации персонажей в AI-видео.
Снижение крутизны обучения и поддержка производства AI-видео с более длительной длительностью и широким диапазоном соотношения сторон.

7. Stable Video Diffusion

В ноябре был представлен генератор видео под названием Stable Video Diffusion, основанный на модели Stable Diffusion, что вызвало дискуссии в AI-сообществе. Эта модель позволяет пользователям генерировать несколько секунд видео на основе статических изображений. Стабильный видеодиффузионный алгоритм, произошедший от модели Stable Diffusion для генерации текста в изображения, разработанной Stability AI, стал одним из немногих генераторов видео, доступных в открытом доступе и коммерческих сферах.
Stable Video Diffusion выпущен в двух вариантах моделей генерации видео на основе изображений, способных генерировать видео с настраиваемыми частотами кадров от 3 до 30 кадров в секунду, что приводит к созданию видео с 14 до 25 кадров. Stable Video Diffusion является частью разнообразной семьи открытых моделей Stability AI, охватывающей различные модальности, такие как изображения, язык, аудио, 3D и код.

8. AnimateDiff

AnimateDiff является фреймворком Text-to-Image Diffusion, который позволяет генерировать персонализированные анимированные изображения на основе текста, что приводит к созданию двухмерного AI-видео в стиле аниме. Его ключевая особенность заключается в возможности адаптации к большинству существующих моделей персонализированной генерации изображений на основе текста без необходимости специфических настроек или обучения.

9. Midjourney

Midjourney является одним из самых успешных коммерческих веб-сайтов по коммерциализации искусственного интеллекта в области изображений на сегодняшний день. Учитывая интенсивную конкуренцию в области генерации видео, очень вероятно, что Midjourney запустит собственный генератор видео в своей версии V6.

10. Emu Video

Недавно Meta представила два революционных исследовательских проекта, Emu Video и Emu Edit. Emu Video - это метод генерации видео на основе текста, основанный на моделях диффузии, способный генерировать видео высокого качества пошаговым образом. Видео, обработанные с помощью Emu Video, обладают замечательным уровнем стилизации, оживляя изображения с добавленным движением.

11. Wonder Dynamics

Компания Wonder Dynamics запустила полностью автоматизированное средство производства компьютерной графики под названием Wonder Studio. С помощью всего одной камеры это средство может автоматически анализировать и записывать живые выступления, превращая их в высококачественные анимации. Оно устраняет необходимость в сложных 3D-программах и процессах производства, и безупречно интегрирует компьютерно-генерируемых персонажей с настройками реального мира, достигая идеального сочетания между ними.

12. Make-A-Video

Make-A-Video, генератор видео от Meta, является моделью генерации видео на основе текста, которая использует сопоставленные данные текст-изображение для понимания внешнего вида мира и того, как он описывается, а также изучает движение мира на основе несопровождаемых видеороликов. За счет того, что модели не требуется самостоятельно изучать визуальные и мультимодальные представления, ускоряется обучение моделей генерации видео на основе текста.

13. MagicAnimate

MagicVideo - это эффективный фреймворк генерации видео на основе текста, основанный на модели латентной диффузии, предложенной компанией ByteDance. Он может генерировать плавные видеоролики, соответствующие заданным текстовым описаниям. Основу MagicVideo составляет генерация ключевых кадров, где модель диффузии аппроксимирует распределение 16 ключевых кадров в пространстве низкой размерности.

14. NVIDIA Video LDM

Video LDM изначально предварительно обучает LDM (Latent Diffusion Model) только на изображениях. Путем введения временного измерения в латентное пространство и доводки закодированных последовательностей изображений (т.е. видео) генератор изображений превращается в генератор видео. Сэмплеры модели диффузии выравниваются по времени, чтобы превратить их в модели видео с согласованным временем. Этот подход эффективно и эффективно преобразует общедоступную передовую модель текст-в-изображение LDM (Latent Diffusion Model) в высокоэкспрессивную и эффективную модель текст-в-видео, способную достигать разрешений до 1280×2048."

15. Microsoft NUWA-XL

NUWA - это инструмент искусственного интеллекта для рисования, совместно разработанный Microsoft Research Asia, Пекинским университетом и Microsoft Azure AI. Этот мощный продукт поддерживает различные функциональные возможности, включая текст-в-рисунок, текст-в-изображение, контур-в-изображение, увеличение изображений, изображение-в-видео и прогнозирование видео. Он способен генерировать изображения высокого разрешения любого размера, чтобы соответствовать различным устройствам, платформам и сценариям. Отличительной особенностью NUWA является NUWA-XL, который использует инновационную архитектуру "Diffusion over Diffusion" для параллельной генерации видео высокого качества и увеличенной продолжительности. С помощью всего 16 простых описаний в качестве входных данных он может создавать анимационные видеоролики продолжительностью до 11 минут.

16. Cogvideo

CogVideo от университета Цинхуа: первая открытая китайская модель генерации текста в видео на основе авторегрессионного моделирования. На момент своего запуска CogVideo была крупнейшей и первой открытой моделью генерации текста в видео, специально разработанной для поддержки китайских подсказок. С впечатляющим количеством параметров в 9,4 миллиарда, модель обладает замечательным соответствием между текстом и видеороликами, что приводит к значительному улучшению качества и точности видео. По сравнению с предыдущими моделями, CogVideo способна генерировать видеоролики с более высоким разрешением (480×480).

17. Google Imagen video

Imagen Video - это система генерации видео, условием для которой является текст, основанная на каскадных моделях диффузии видео, разработанная командой Google. Она не только генерирует видеоролики высокой достоверности, но также обладает высоким уровнем управляемости и мировыми знаниями. Система способна создавать различные видеоролики и текстовые анимации в различных художественных стилях, демонстрировать понимание трехмерных структур и представлять разнообразное текстовое содержание с разными стилями и динамикой.

18. Google Phenaki

Phenaki, разработанная Google Research, является первой моделью, способной генерировать видеоролики на основе открытых временных подсказок. Она может создавать видеоролики переменной длины на основе серии открытых текстовых подсказок. Phenaki генерирует видеоролики, которые обладают временной согласованностью и разнообразием, основанными на открытых подсказках, даже при работе с новыми концепциями, которые могут отсутствовать в наборе данных.

19. Zeroscope

Zeroscope - это модель генерации текста в видео в рамках сообщества ModelScope. Большая модель Zeroscope_v2 была опубликована в открытом доступе на платформе Hugging Face. Эта модель является производной от модели ModelScope-textto-video-synthesis и содержит 1,7 миллиарда параметров. Благодаря открытому исходному коду модели, она получает преимущества от коллективного интеллекта, ускоряет ее разработку и итерации, а также поощряет участие сообщества. В настоящее время другие модели генерации текста в видео не доступны конечным пользователям. Однако из-за открытого исходного кода модели, отсутствия корпоративной или командной поддержки и неясного пути коммерциализации, будущее развитие Zeroscope неопределено.

20. Rephrase.ai

23 ноября компания Adobe подтвердила приобретение стартапа по искусственному интеллекту Rephrase.ai, известного своей технологией преобразования текста в виртуальные видеоролики. Покупка Rephrase.ai со стороны Adobe отражает растущую тенденцию расширения области генерации контента с использованием искусственного интеллекта за пределы текста и изображений на более сложные формы, такие как видео. Недавние достижения в связанных продуктах и технологиях свидетельствуют о возрастающем интересе и конкуренции в этой области.

Заключение

В заключение, к концу 2023 года было интенсивно выпущено значительное количество алгоритмов и моделей. Среди них Li Feifei's video generation model, W.A.L.T, AnimateZero от Tencent, Miraclevision 4.0 от Meitu и GAIA от Microsoft. Ясно, что в наступающем году, 2024, генерация видео станет одним из самых горячих направлений в области искусственного интеллекта.

Оригинал：＂20 Best AI Video Generators (2023)＂

Для получения более подробной информации о создании видео и сложностях, пожалуйста, прочтите другую статью：＂PromeAI представляет Text to Video: новый прорыв в генерации видео искусственным интеллектом＂

125 показов

1.9K открытий

Комментарии

Написать комментарий...

-3 комментариев

Раскрывать всегда