На данный момент это лучшее решение в сегменте text-to-video. Нейронка способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона. Модель понимает не только то, что пользователь запросил в командной строке, но и то, как эти вещи существуют в физическом мире.