В общем, UniAnimate решает эти косяки. Они придумали, как закинуть все данные — и фото человека, и его позы, и даже зашумленное видео — в одно место, чтобы потом это всё можно было легко обработать. Используют специальную диффузионную модель, которая всё это волшебным образом объединяет.