CNN могут быть очень точными при выполнении задач распознавания объектов, включая локализацию (определение местоположения объекта на изображении) и классификацию (определение класса изображения - например, собака или кошка, лабрадор или немецкая овчарка) на основе предварительного обучения коэффициентов нейронной сети. В то время как SLAM может помочь камере перемещаться по окружающей среде, не сталкиваясь с объектами, CNN может определить, что объект - это диван, холодильник или стол, и подсветить его положение в поле зрения. Популярными графами CNN для обнаружения объектов в реальном времени, включающими классификацию и локализацию, являются YOLO v2, Faster R-CNN и Single shot multibox detector (SSD).