Как генерировать видео нейросетью. И как ей пользоваться в России?

Stable Diffusion выпустила модель для генерации видео. Давайте посмотрим, что она умеет и как ей пользоваться.

Нейросеть создана компанией Stability, они же сделали популярный генератор изображений Stable Diffusion.

Далее текст из официальной инструкции производителя

Stable Video Diffusion — модель скрытой диффузии видео для современной передачи текста в видео высокого разрешения.и генерация изображения в видео. В последнее время модели скрытой диффузии , обученные для синтеза 2D-изображений, были переработаны в генеративные видеомодели путем вставки временных слоев и точной настройки их на небольших наборах высококачественных видеоданных. Однако, методы обучения в теории сильно различаются и отрасль еще не согласовала единую стратегию.

Из этого можем сделать вывод, что модель еще совсем сырая. Можно даже сказать, что тестовая, так как еще не создали единый механизм создания видеомоделей нейронок.

Что еще интересного из официальной инструкции?

Как генерировать видео нейросетью. И как ей пользоваться в России?

Исходный набор данных содержит множество статичных сцен и монтажей, что вредит обучению генеративных видеомоделей.

Слева: среднее количество клипов на видео до и после обработки, что показывает, что наш механизм обучения обнаруживает множество дополнительных сокращений.

Справа: Распределение среднего показателя оптического потока для одного клипа.

Генерация на основе текстового запроса

Можно ввести текстовый запрос и нейросеть выдасть видео. Генерация занимает 1-3 минуты.

Иногда получаются хорошие видео, но лучше генерировать только статичные вещи. К примеру, людей он генерирует плохо=(

Запрос: Cappucino

Запрос: Vibrant orange, pink, yellow, and red gerbera daisies mingle together in a clear glass vase in this cheerful AI creation. The arrangement looks professionally done, with different flower heights and angles.

Запрос: Alone glass Skyscraper on the field

Генерация видео на основе картинки

Это он делает лучше всего, вроде как...

Картинка+текст

А это хуже всего. Точнее, выходная картинка часто очень не похожа на входную...

<i>Три варианта пропорций для генерации</i>

Видео в Stable Video можно генерировать в трех форматах:

Вертикальное 16:9 - 1024x576
Горизонтальное 9:16 - 576x1024
Квадрат 1:1 - 768x768

Как и в генерации картинок, тут можно настраивать некоторые характеристики.

Совпадение исходному изображению

Можно указать, насколько видео на основе картинки будет соответствовать той самой исходной картинке. Но здесь нужно быть осторожным, при слишком высоких значениях нейросеть слишком сильно цепляется за изначальное изображение, как тут, к примеру (движется только небо):

Уровень движения

Очень полезная функция, при этом тоже с ней можно переборщить.

Нельзя указать, что именно должно двигаться.

На трех видео ниже уровень движения по возрастанию.
1. Движется только небо
2. Движется все
3. Нейросеть решила, что двигаться должны только облака, зато как быстро!

Нейросеть совсем новая и часто генерации получаются ужасными.

Для использования в своих сервисах через api этой нейросети, нужно оплатить доступ иностранной карты.

А для того, у кого ее нет, мы как обычно сделали доступ к этой нейросети со всеми настройками. К сожалению, нейросеть пока дорогая, потестировать можете ее тут в сервисе Video Bot KolerskyAi.

В <a href="https://api.vc.ru/v2.8/redirect?to=http%3A%2F%2Ft.me%2FVideo_kolersky_bot&postId=1138094" rel="nofollow noreferrer noopener" target="_blank">этом боте</a> можно генерировать видео

Тут есть подробная инструкция и больше примеров, а так же на главной много разных сервисов с нейронками от KolerskyAi на главной странице.

Ну и на последок, видео с примерами

Как генерировать видео нейросетью. И как ей пользоваться в России?

Что это за нейросеть и как она генерирует видео?

Что она умеет

Разрешения для генерации

Дополнительные настройки:

Ну и ужасные примеры, конечно же!

Как пользоваться нейросетью в России?