В нашем исследовании мы выяснили, что предварительное обучение в ImageNet не помогает при тонкой настройке под другую задачу, а именно под распознавание объектов в MSCOCO. В частности, при использовании менее чем 10% от массива данных COCO мы наблюдали существенное снижение точности. Однако при сравнении метрик AP@50 и AP мы выяснили, что предварительное обучение может помочь модели достигать улучшенной классификации (та же задача, что и в предварительном обучении), но не локализации (другая задача). Если модели обучаются до насыщения, они проявляют ту же степень точности; тем не менее, предварительно обученная модель может достигать той же точности при меньшем количестве итераций.