Основная цель Boximator - создание полностью управляемого и достоверного движения объектов в видео. Согласно архитектуре 3D U-Net, нейросеть структурирована с чередованием блоков свертки и блоков внимания. Пространственная часть организаций отвечает за управление отдельными кадрами, а временная часть обеспечивает обмен информацией между ними.