Meta* AI представила "Emu Video" - инструмент ИИ, который превращает текст в видео
В стремительно развивающемся мире ИИ, в то время как модели преобразования текста в изображение быстро прогрессируют, ИИ-инструменты преобразования текста в видео отстают. Существует несколько инструментов для создания видеороликов, но по-настоящему впечатляющие результаты удалось получить только у Runway's Gen2 и Pika Labs.
Сегодня компания Meta* AI анонсировала собственную версию ИИ-видеогенератора под названием Emu Video, и она выглядит потрясающе.
Что такое Emu Video?
Emu Video, расширение модели Emu, используемой для генерации изображений, предлагает инновационный подход к генерации видео из текста.
В ней используются диффузионные модели, которые отличаются простотой и высокой эффективностью.
Модель обучена на самом большом наборе данных - 10 млн. синтезированных образцов с входным изображением, описанием задачи и целевым выходным изображением. Таким образом, на сегодняшний день это самый большой набор данных такого рода.
Приведу несколько примеров:
Что вы думаете об этих видеороликах? Мне нравится, насколько плавными являются переходы между кадрами. Meta проделала отличную работу с этой моделью.
Как работает Emu Video?
Генерация видеороликов состоит из двух этапов:
- Сначала генерируется изображение, заданное текстовым промптом
- Затем генерируется видео, основанное на промпте и сгенерированном изображении
По словам представителей Meta AI, такой "факторизованный" или разделенный подход к генерации видео позволяет эффективно обучать модели генерации видео.
В результате получается 4-секундное видео с частотой 16 кадров в секунду и разрешением 512x512 пикселей.
Однако, по словам исследователей, видео можно увеличить и получить достойный результат.
Они продемонстрировали модель, генерирующую правдоподобные продолжения оригинальных видеороликов, в соответствии с новыми промптами.
Как она выглядит в сравнении с конкурентами?
Исследователи Meta использовали экспертов для сравнения результатов Emu Video с современными моделями генерации текста в видео на основе различных промптов по качеству и достоверности.
- Make-a-Video (MAV)
- Imagen-Video (Imagen)
- Align Your Latents (AYL)
- Reuse and Diffuse (R&D)
- Cog Video (Cog)
- Runway Gen2 (Gen2)
- Pika Labs (Pika)
По собственной оценке компании Meta, Emu Video показал хорошие результаты, продемонстрировав прогресс в области генерации текста в видео. Однако эта оценка основана только на их внутреннем тестировании; я не могу полностью подтвердить эти результаты или сделать какие-либо окончательные выводы о возможностях Emu Video, пока сам не получу практический опыт работы с этим инструментом.
Как получить доступ
В настоящее время Emu Video является фундаментальным исследованием и пока не представляет собой реальный продукт. Meta запустила демонстрационный сайт, на котором вы можете ознакомиться с коллекцией видеороликов, созданных Emu Video.
Не поймите меня неправильно - технология, лежащая в основе Emu Video, выглядит очень впечатляюще. Но как бы мне ни хотелось попробовать новые инструменты искусственного интеллекта от Meta, я знаю, что реальное использование не всегда соответствует лабораторным тестам. Надеюсь, что в скором времени компания выпустит общедоступный инструмент.
Тем не менее, я рад, что Meta расширяет границы инноваций в области ИИ. Нам нужны компании, мыслящие масштабно, чтобы технологии двигались вперед. В то же время я надеюсь, что Meta рассмотрит вопрос об открытом доступе к этим инструментам.
*Деятельность компании Meta запрещена на территории России.
Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.
Оригинал статьи на английском - здесь.
Шел 2013 год, мы вчетвером собрались на Рублевке для создания сайта услуг. Сегодня, если ваш телефон разбился или ноутбук завис, я на 99,9% уверен: первое, что вы введёте в поисковике — это «Pedant.ru»
Умные люди учатся на чужих ошибках. Я прошел такую школу, где учился на своих. Сегодня вы узнаете, что меня привело к успеху.
Dell договаривается о поставке серверов на $5 млрд, говорят источники.
Год назад инвесторы оценивали стартап в $2,6 млрд.
Они предлагали $97,4 млрд.
Добрый день, дорогие читатели! В одной из статей мы говорили о ключевых моментах гражданства Турции по рождению. А сегодня предлагаем окунуться в вопрос получения турецкого гражданства по браку.
Если пройдет хорошо – все заработают денег.
Но стоит случится одному маленькому косяку и все шоу пойдет под хвост. А все вложенные деньги испарятся, как тыква.
Что с этим можно делать и чья работа не допускать этого?
Я имел возможность работать с нейросетью в рамках своего исследования и был поражен ее эффективностью и точностью. Она могла обрабатывать огромные объемы данных за короткое время и предоставлять точные результаты. Благодаря этому, я сумел сэкономить много времени и выявить скрытые связи и паттерны в данных, что помогло мне сделать значимые выводы и принять эффективные решения.
Powered by AI.
^ бот рекламирует использование ИИ в повседневной работе.
Боже мой, до чего дошёл прогресс, до космических чудес! Написал текст, а ИИ тебе видео смастерит, как ИИ это видит! Что ж, подождём, когда продукт выйдет на рынок