{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

Meta* AI представила "Emu Video" - инструмент ИИ, который превращает текст в видео

В стремительно развивающемся мире ИИ, в то время как модели преобразования текста в изображение быстро прогрессируют, ИИ-инструменты преобразования текста в видео отстают. Существует несколько инструментов для создания видеороликов, но по-настоящему впечатляющие результаты удалось получить только у Runway's Gen2 и Pika Labs.

Сегодня компания Meta* AI анонсировала собственную версию ИИ-видеогенератора под названием Emu Video, и она выглядит потрясающе.

Что такое Emu Video?

Emu Video, расширение модели Emu, используемой для генерации изображений, предлагает инновационный подход к генерации видео из текста.

В ней используются диффузионные модели, которые отличаются простотой и высокой эффективностью.

Модель обучена на самом большом наборе данных - 10 млн. синтезированных образцов с входным изображением, описанием задачи и целевым выходным изображением. Таким образом, на сегодняшний день это самый большой набор данных такого рода.

Приведу несколько примеров:

Что вы думаете об этих видеороликах? Мне нравится, насколько плавными являются переходы между кадрами. Meta проделала отличную работу с этой моделью.

Как работает Emu Video?

Генерация видеороликов состоит из двух этапов:

  1. Сначала генерируется изображение, заданное текстовым промптом
  2. Затем генерируется видео, основанное на промпте и сгенерированном изображении
Как работает Emu Video

По словам представителей Meta AI, такой "факторизованный" или разделенный подход к генерации видео позволяет эффективно обучать модели генерации видео.
В результате получается 4-секундное видео с частотой 16 кадров в секунду и разрешением 512x512 пикселей.

Однако, по словам исследователей, видео можно увеличить и получить достойный результат.

Они продемонстрировали модель, генерирующую правдоподобные продолжения оригинальных видеороликов, в соответствии с новыми промптами.

Как она выглядит в сравнении с конкурентами?

Исследователи Meta использовали экспертов для сравнения результатов Emu Video с современными моделями генерации текста в видео на основе различных промптов по качеству и достоверности.

Сравнение Emu Video с конкурентами
  • Make-a-Video (MAV)
  • Imagen-Video (Imagen)
  • Align Your Latents (AYL)
  • Reuse and Diffuse (R&D)
  • Cog Video (Cog)
  • Runway Gen2 (Gen2)
  • Pika Labs (Pika)

По собственной оценке компании Meta, Emu Video показал хорошие результаты, продемонстрировав прогресс в области генерации текста в видео. Однако эта оценка основана только на их внутреннем тестировании; я не могу полностью подтвердить эти результаты или сделать какие-либо окончательные выводы о возможностях Emu Video, пока сам не получу практический опыт работы с этим инструментом.

Как получить доступ

В настоящее время Emu Video является фундаментальным исследованием и пока не представляет собой реальный продукт. Meta запустила демонстрационный сайт, на котором вы можете ознакомиться с коллекцией видеороликов, созданных Emu Video.

Emu Video demo website

Не поймите меня неправильно - технология, лежащая в основе Emu Video, выглядит очень впечатляюще. Но как бы мне ни хотелось попробовать новые инструменты искусственного интеллекта от Meta, я знаю, что реальное использование не всегда соответствует лабораторным тестам. Надеюсь, что в скором времени компания выпустит общедоступный инструмент.

Тем не менее, я рад, что Meta расширяет границы инноваций в области ИИ. Нам нужны компании, мыслящие масштабно, чтобы технологии двигались вперед. В то же время я надеюсь, что Meta рассмотрит вопрос об открытом доступе к этим инструментам.

*Деятельность компании Meta запрещена на территории России.

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

Оригинал статьи на английском - здесь.

0
9 комментариев
Написать комментарий...
Булат Щукин

Я имел возможность работать с нейросетью в рамках своего исследования и был поражен ее эффективностью и точностью. Она могла обрабатывать огромные объемы данных за короткое время и предоставлять точные результаты. Благодаря этому, я сумел сэкономить много времени и выявить скрытые связи и паттерны в данных, что помогло мне сделать значимые выводы и принять эффективные решения.

Ответить
Развернуть ветку
Александр Кайт

Powered by AI.

Ответить
Развернуть ветку
bumbibombonon

^ бот рекламирует использование ИИ в повседневной работе.

Ответить
Развернуть ветку
Александр Кайт

Powered by Human.

Ответить
Развернуть ветку
Dascha Borodiuk

Мы-то думали, что будущее наступило тогда, когда люди стали читать электронные книги, куря электронные сигареты. Ну, или Алиса бесцеремонно влезала в беседу «кожаных мешков». Но все оказалось ещё интереснее. С нейросетью возможности просто не ограничены!

Ответить
Развернуть ветку
Rafael Usmanov

Если честно, мне страшно за такое будущее

Ответить
Развернуть ветку

Комментарий удален автором поста

Развернуть ветку

Комментарий удален автором поста

Развернуть ветку
Ирина Григорьева

Боже мой, до чего дошёл прогресс, до космических чудес! Написал текст, а ИИ тебе видео смастерит, как ИИ это видит! Что ж, подождём, когда продукт выйдет на рынок

Ответить
Развернуть ветку
Dima Yurov

Хотелось бы самому попробовать свой текст перевести в видео. А каждый раз текс переводится в новое видео или ИИ запоминает и показывает одно и тоже?

Ответить
Развернуть ветку

Комментарий удален автором поста

Развернуть ветку
Света Вобрик

Впечатляющее достижение Meta* AI! "Emu Video" звучит как потрясающий инструмент, способный преобразовывать текст в видео. Это открывает огромные возможности

Ответить
Развернуть ветку
6 комментариев
Раскрывать всегда