Alibaba выпустил новую визуальную модель Wan2.5-Preview, которая конкурирует с Veo3

Он выполняет мультимодальный ввод и вывод — вы даете ему текст и видео, и он создает полноценное видео с голосом, звуковыми эффектами и фоновой музыкой

Архитектура:

🔴Поддержка текста, картинок, видео и аудио в одном формате.

🔴Обучение сразу на всех типах данных → лучше понимает и синхронизирует звук с картинкой.

🔴Постоянно «подстраивается» под человека, чтобы выдавать более точный и качественный результат.

Видео:

🔴Генерация видео с синхронизированным звуком: голоса, эффекты, музыка.

🔴Можно использовать текст, картинки и аудио как входные данные.

🔴Картинка в 1080p, 10 секунд кинематографического качества.

Изображения:

🔴Фотореализм, разные стили, типографика, даже профессиональные схемы.

🔴Умное редактирование по запросу: объединять идеи, менять материалы, цвета и детали — точность до пикселя.

Уже можно тестить тут, но из-за большой загрузки долгое ожидание.

Начать дискуссию