Как пользоваться нейросетью HunyuanVideo для генерации видео

Китайская модель создаёт пятисекундные фрагменты по текстовому описанию.

Источник: aivideo.hunyuan.tencent.com

HunyuanVideo — модель искусственного интеллекта с открытым исходным кодом, которая генерирует реалистичные видео по текстовому описанию. Разработкой нейросети занималась китайская корпорация Tencent, релиз состоялся в декабре 2024 года. О том, что умеет модель и где её протестировать, — в этом тексте.

Содержание:

Как работает HunyuanVideo
Где протестировать нейросеть
Примеры генераций с промптами
Коротко

Нейросеть работает на основе мультимодальной архитектуры. Это значит, что она обрабатывает информацию разными «органами чувств». В случае с HunyuanVideo речь про текст (поступает на ввод) и видео (получается в результате).

HunyuanVideo использует более 13 миллиардов параметров для анализа текста и создания коротких видеосцен. Для сравнения, Sora — нейросеть для генерации реалистичных видео от OpenAI, которая пока находится в закрытом доступе, — оперирует 3 миллиардами параметров.

Модель генерирует видео длительностью до 5 секунд с разрешением 544p и 720p. В качестве промптов служит текст на английском и китайском языках; западные обзорщики отмечают, что нейросеть от Tencent справляется с английскими запросами чуть хуже, чем аналоги, например, Runway Gen-3. При этом видео получаются ничуть не хуже: HunyuanVideo создаёт сцены с разнообразными объектами и текстурами, реалистичным движением и освещением.

Разработчики утверждают, что в ходе исследований респонденты оценили результаты выдачи HunyuanVideo выше её прямых конкурентов — KLING AI 1.5, Runway Gen-3 Alpha, Luma1.6.

Модель доступна для пользователей на официальном сайте Tencent. В России страница открывается без ограничений, однако для регистрации необходим китайский номер телефона (код региона — +86).

После регистрации пользователи получают доступ к интерфейсу, где можно вводить текстовые описания и настраивать параметры генерируемого видео: его длительность, формат и разрешение. Одна генерация занимает от 30 секунд до нескольких минут, дополнительно устанавливать что-либо не потребуется.

HunyuanVideo имеет открытый исходный код, и её может установить себе на ПК любой желающий.

Главное, что стоит учесть, — технические ограничения. Пользователю необходим компьютер с GPU NVIDIA с поддержкой CUDA (версии 11.8 и 12.4). Для генерации видео в разрешении 544p минимальный объём видеопамяти должен быть выше 45 Гб, в 720p — 60 Гб. Рекомендуемое значение и того больше — 80 Гб.

Необходимые файлы и инструкции доступны в аккаунтах Tencent на GitHub и HuggingFace. В первом опубликован исходный код и подробная документация, которые облегчают установку и настройку нейросети на компьютере. Во втором — размещена модель и инструкции по её использованию, что позволяет интегрировать HunyuanVideo в собственные проекты.

Для установки модели на операционной системе Linux или в виртуальной машине на базе Linux необходимо:

Скопировать репозиторий.

git clone https://github.com/tencent/HunyuanVideo

Перейти в установленную директорию.

cd HunyuanVideo

Установить Conda.

conda install

Создать среду conda.

conda create -n HunyuanVideo python==3.10.9

Активировать среду conda.

conda activate HunyuanVideo

Установить зависимости.

а) Для CUDA 11.8.

conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=11.8 -c pytorch -c nvidia

б) Для CUDA 12.4.

conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia

Установить зависимости для python.

python -m pip install -r requirements.txt

Установить FlashAttention и xDit. Они нужны для ускорения и облегчения модели (строки необходимо вводить последовательно).

python -m pip install ninja
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.6.3
python -m pip install xfuser==0.4.0

Кроме того, пользователь может установить уже готовую модель. Для этого нужно:

Установить huggingface-cli.

python -m pip install "huggingface_hub[cli]"

Перейти в директорию HunyuanVideo.

cd HunyuanVideo

Скачать модель. Время загрузки составит от нескольких минут до нескольких часов — скорость зависит от интернет-соединения.

huggingface-cli download tencent/HunyuanVideo --local-dir ./ckpts

Источник: x.com/HBCoop_

Промпт: «Low-angle tracking shot following a sleek BMW motorcycles driving on a busy street in New York City. Street lights reflecting off wet pavement».

(«Съёмка от первого лица быстрого мотоцикла BMW на оживлённой улице в Нью-Йорке. Уличные фонари отражаются в мокром тротуаре»).

Источник: x.com/HBCoop_

Промпт: «Wide shot of the towering glaciers of Patagonia. Condors soaring above and penguins on ice floes. Soft, diffuse light with occasional sunbeams breaking through clouds. Icy blues and whites with the dark silhouettes of the animals».

(«Широкоугольный снимок возвышающихся ледников Патагонии. Парящие кондоры и пингвины на льдинах. Мягкий, рассеянный свет с пробивающимися сквозь облака солнечными лучами. Ледяные голубые и белые цвета с тёмными силуэтами животных»).

Источник: x.com/HBCoop_

Промпт: «Wide-angle shot from above, showing a helicopter lowering a rescue line to a boat with bright sunlight reflecting off the ocean waves. Deep blues and whites with the sparkle of the sun on water. Dramatic and heroic, with the vastness of the ocean adding to the scene's intensity».

(«Широкоугольный снимок сверху, на котором видно, как вертолёт спускает спасательный трос на лодку, а яркий солнечный свет отражается от океанских волн. Глубокие синие и белые цвета с блеском солнца на воде. Драматическая и героическая сцена, а просторы океана придают ей особую остроту»).

Здесь видны типичные недочёты нейросетевой генерации: трос тянется от вертолёта вверх, к «камере». При этом настроение сцены нейросеть передала точно.

Источник: x.com/HBCoop_

Промпт: «Low-angle tracking shot following a sleek sports car driving on a busy street in Barcelona. Street lights reflecting off wet pavement, creating a vibrant and dynamic scene».

(«Съёмка с низкого угла за движением элегантного спортивного автомобиля на оживлённой улице в Барселоне. Уличные фонари отражаются от мокрой мостовой, создавая яркую и динамичную сцену»).

Здесь снова можно заметить артефакты генерации. Например, машины по обе стороны от спорткара едут в одну и ту же сторону — едва ли это соответствует испанским ПДД. Однако если не искать недочёты, картинка полностью соответствует описанию.

Источник: x.com/HBCoop_

Промпт: «Underwater close-up of the Great Barrier Reef with clownfish darting among sea anemones, vibrant corals, and reef sharks. Sunlight creating a shimmering effect the water. A kaleidoscope of blues, pinks, oranges and greens».

(«Подводный крупный план Большого Барьерного рифа с рыбами-клоунами, шныряющими среди морских анемонов, ярких кораллов и рифовых акул. Солнечный свет создаёт эффект мерцания на воде. Калейдоскоп голубых, розовых, оранжевых и зелёных оттенков»).

Тот же промпт, но в генерации с помощью Runway Gen-3 Alpha Turbo — эта нейросеть считается одним из главных конкурентов HunyuanVideo. Версия Turbo поддерживает только создание видео по заданному изображению и текстовому описанию. Доступ к полной версии Gen-3 Alpha, которая позволяет генерировать без использования картинки, стоит от $144 в год.

Источник: Runway Gen-3 Alpha Turbo

Видео получилось менее чётким и естественным, у рыбы образовался дополнительный плавник.

Теперь за генерацию отвечает другой сервис — Dream machine от Luma, еще один конкурент HunyuanVideo. Модель также не может генерировать видео без опорного изображения, поэтому пользователю сначала придётся создать по описанию картинку. Затем на основе полученного кадра можно сгенерировать видео.

Источник: Dream machine

Результат снова выглядит хуже, чем у HunyuanVideo. Если первые кадры ещё похожи на реалистичную съёмку подводного мира, к концу видео объекты расплываются и смазываются.

HunyuanVideo — новая китайская нейросеть от Tencent для генерации 5-секундных видеороликов на основе текстовых описаний. Модель поддерживает разрешения 544p и 720p, а также английский и китайский языки (с лучшим качеством генерации на китайском).
Сервис доступен онлайн на сайте Tencent (требуется китайский номер телефона) или в формате локальной установки на ПК при наличии мощной видеокарты с CUDA (минимум 45–60 ГБ видеопамяти).
Преимущество — высокое качество визуализации (реалистичное движение, текстуры и освещение), которое превосходит конкурентов.
Недостатки — высокие требования к оборудованию для локальной установки и мелкие визуальные недочёты. Но их можно поправить на монтаже.

Будете использовать HunyuanVideo?

Как пользоваться нейросетью HunyuanVideo для генерации видео

Как работает HunyuanVideo

Как протестировать нейросеть

На официальном сайте

На компьютере

Примеры генераций с промптами

Сравнение с аналогами

Коротко