{"id":14293,"url":"\/distributions\/14293\/click?bit=1&hash=05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","hash":"05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","title":"\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0435 \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0432 \u043d\u0438 \u043a\u043e\u043f\u0435\u0439\u043a\u0438","buttonText":"","imageUuid":""}

Новая модель ИИ "Stable Video Diffusion" оживляет статичные изображения

С помощью GPU и терпения, SVD может превратить любое изображение в 2-секундный видеоклип.

Stability AI во вторник представила Stable Video Diffusion — новый бесплатный инструмент исследования ИИ, который может превратить любое статичное изображение в короткое видео с разнообразными результатами. Это открытая версия двух моделей ИИ, использующих технику преобразования изображения в видео, и она может работать локально на компьютере с GPU Nvidia.

В прошлом году Stability AI привлекла внимание с выпуском Stable Diffusion, модели синтеза изображений с «открытыми весами», которая запустила волну открытого синтеза изображений и вдохновила большое сообщество энтузиастов, разработавших собственные настройки на основе этой технологии. Теперь Stability хочет сделать то же самое с синтезом видео ИИ, хотя технология все еще находится в зачаточном состоянии.

На данный момент Stable Video Diffusion состоит из двух моделей: одна может производить синтез изображения в видео длительностью 14 кадров (называется «SVD"), а другая генерирует 25 кадров (называется "SVD-XT). Они могут работать с различной скоростью от 3 до 30 кадров в секунду и выводят короткие (обычно 2-4 секунды) видеоклипы MP4 разрешением 576×1024.

В локальных тестах генерация 14 кадров заняла около 30 минут на графической карте Nvidia RTX 3060, но пользователи могут экспериментировать с более быстрым запуском моделей в облаке через такие сервисы, как Hugging Face и Replicate (за некоторые из них может потребоваться оплата). В наших экспериментах сгенерированная анимация обычно сохраняет часть сцены статичной и добавляет эффекты панорамирования и зума или анимирует дым или огонь. Люди, изображенные на фотографиях, обычно не двигаются, хотя нам удалось немного оживить одно изображение Getty с Стивом Возняком.

(Примечание: Кроме фотографии Стива Возняка от Getty Images, другие анимированные в этой статье изображения были созданы с помощью DALL-E 3 и анимированы с использованием Stable Video Diffusion.)

Учитывая эти ограничения, Stability подчеркивает, что модель все еще находится на ранней стадии и предназначена только для исследований.
«Мы с нетерпением ждем обновления наших моделей с последними достижениями и работаем над включением вашего отзыва», — пишет компания на своем сайте, — «эта модель на данном этапе не предназначена для реального или коммерческого применения. Ваши мнения и отзывы о безопасности и качестве важны для уточнения этой модели перед ее окончательным выпуском».

Заметно, но, возможно, неудивительно, что в исследовательской работе по Stable Video Diffusion не раскрывается источник обучающих наборов данных моделей, лишь говорится, что исследовательская группа использовала «большой видеонабор, состоящий примерно из 600 миллионов образцов», который они превратили в большой видеонабор (LVD), состоящий из 580 миллионов аннотированных видеоклипов, охватывающих 212 лет контента по продолжительности.

Stable Video Diffusion далеко не первая модель ИИ, предлагающая такую функциональность.
Буду рад вашей подписке на VC.RU и Telegram

0
Комментарии
-3 комментариев
Раскрывать всегда