Alibaba выпустила бесплатный генератор дипфейков по фотографии и аудиодорожке

Компания также выложила открытый исходный код модели.

  • Функцию анимации изображений с синхронизацией аудиозаписи и движений губ добавили в ИИ-сервис Wan. Модель создаёт не только «говорящие головы», она может «оживить» персонажа в полный рост и обстановку вокруг, заявляют разработчики.
Источник: Wan
  • Чтобы воспользоваться функцией, нужно выбрать режим Avatar, прикрепить фотографию и загрузить аудиозапись длиной до 15 секунд. Также есть генератор речи, он поддерживает только английский язык.
Режим Avatar на панели ввода запросов
Режим Avatar на панели ввода запросов
Примеры работы модели на английском и китайском языках. Источник: metalwen
Результат анимации с аудиодорожкой на русском языке. Генерация vc.ru
  • В сервисе можно бесплатно генерировать неограниченное количество видео длиной до десяти секунд с разрешением 720p в режиме «медленной» очереди. Чтобы ускорить генерацию, нужно получить кредиты.
  • За каждую авторизацию по кнопке Check-in дают пятьдесят бесплатных кредитов. Их хватит, чтобы «подвинуть в очереди» пять видео длиной пять секунд. Кредиты также можно купить — минимум 150 штук за $5 (402 рубля по курсу ЦБ на 27 августа 2025 года).
  • Alibaba также выложила в открытый доступ модель Wan2.2-S2V на 14 млрд параметров, на базе которой работает функция. Веса доступны на HuggingFace, код — на Github.
5
5
1
21 комментарий