Это не Image-to-Video, где задается начальный и конечный кадр, а что-то совершенно иное. Больше примеров в статье.
Скоро актёрам придётся менять профессию:)