Meta* AI представила "Emu Video" - инструмент ИИ, который превращает текст в видео

Meta* AI представила "Emu Video" - инструмент ИИ, который превращает текст в видео

В стремительно развивающемся мире ИИ, в то время как модели преобразования текста в изображение быстро прогрессируют, ИИ-инструменты преобразования текста в видео отстают. Существует несколько инструментов для создания видеороликов, но по-настоящему впечатляющие результаты удалось получить только у Runway's Gen2 и Pika Labs.

Сегодня компания Meta* AI анонсировала собственную версию ИИ-видеогенератора под названием Emu Video, и она выглядит потрясающе.

Что такое Emu Video?

Emu Video, расширение модели Emu, используемой для генерации изображений, предлагает инновационный подход к генерации видео из текста.

В ней используются диффузионные модели, которые отличаются простотой и высокой эффективностью.

Модель обучена на самом большом наборе данных - 10 млн. синтезированных образцов с входным изображением, описанием задачи и целевым выходным изображением. Таким образом, на сегодняшний день это самый большой набор данных такого рода.

Приведу несколько примеров:

Что вы думаете об этих видеороликах? Мне нравится, насколько плавными являются переходы между кадрами. Meta проделала отличную работу с этой моделью.

Как работает Emu Video?

Генерация видеороликов состоит из двух этапов:

  1. Сначала генерируется изображение, заданное текстовым промптом
  2. Затем генерируется видео, основанное на промпте и сгенерированном изображении
Как работает Emu Video
Как работает Emu Video

По словам представителей Meta AI, такой "факторизованный" или разделенный подход к генерации видео позволяет эффективно обучать модели генерации видео.
В результате получается 4-секундное видео с частотой 16 кадров в секунду и разрешением 512x512 пикселей.

Однако, по словам исследователей, видео можно увеличить и получить достойный результат.

Meta* AI представила "Emu Video" - инструмент ИИ, который превращает текст в видео

Они продемонстрировали модель, генерирующую правдоподобные продолжения оригинальных видеороликов, в соответствии с новыми промптами.

Как она выглядит в сравнении с конкурентами?

Исследователи Meta использовали экспертов для сравнения результатов Emu Video с современными моделями генерации текста в видео на основе различных промптов по качеству и достоверности.

Сравнение Emu Video с конкурентами
Сравнение Emu Video с конкурентами
  • Make-a-Video (MAV)
  • Imagen-Video (Imagen)
  • Align Your Latents (AYL)
  • Reuse and Diffuse (R&D)
  • Cog Video (Cog)
  • Runway Gen2 (Gen2)
  • Pika Labs (Pika)

По собственной оценке компании Meta, Emu Video показал хорошие результаты, продемонстрировав прогресс в области генерации текста в видео. Однако эта оценка основана только на их внутреннем тестировании; я не могу полностью подтвердить эти результаты или сделать какие-либо окончательные выводы о возможностях Emu Video, пока сам не получу практический опыт работы с этим инструментом.

Как получить доступ

В настоящее время Emu Video является фундаментальным исследованием и пока не представляет собой реальный продукт. Meta запустила демонстрационный сайт, на котором вы можете ознакомиться с коллекцией видеороликов, созданных Emu Video.

Emu Video demo website
Emu Video demo website

Не поймите меня неправильно - технология, лежащая в основе Emu Video, выглядит очень впечатляюще. Но как бы мне ни хотелось попробовать новые инструменты искусственного интеллекта от Meta, я знаю, что реальное использование не всегда соответствует лабораторным тестам. Надеюсь, что в скором времени компания выпустит общедоступный инструмент.

Тем не менее, я рад, что Meta расширяет границы инноваций в области ИИ. Нам нужны компании, мыслящие масштабно, чтобы технологии двигались вперед. В то же время я надеюсь, что Meta рассмотрит вопрос об открытом доступе к этим инструментам.

*Деятельность компании Meta запрещена на территории России.

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

Оригинал статьи на английском - здесь.

2525
реклама
разместить
8 комментариев

Я имел возможность работать с нейросетью в рамках своего исследования и был поражен ее эффективностью и точностью. Она могла обрабатывать огромные объемы данных за короткое время и предоставлять точные результаты. Благодаря этому, я сумел сэкономить много времени и выявить скрытые связи и паттерны в данных, что помогло мне сделать значимые выводы и принять эффективные решения.

^ бот рекламирует использование ИИ в повседневной работе.

Мы-то думали, что будущее наступило тогда, когда люди стали читать электронные книги, куря электронные сигареты. Ну, или Алиса бесцеремонно влезала в беседу «кожаных мешков». Но все оказалось ещё интереснее. С нейросетью возможности просто не ограничены!

1