Antwort

8

Das ist ein offenes Problem bei der Bilderkennung. Zu den bestehenden Ansätzen gehören neben Schiebefenstern auch die Vorhersage des Objektstandorts im Bild als CNN-Ausgabe, das Vorhersagen von Grenzen (Klassifizieren von Pixeln als zur Bildgrenze gehörend oder nicht) und so weiter. Siehe zum Beispiel this paper und Referenzen darin.

Beachten Sie auch, dass mit CNN mit Max-Pooling Positionen von Feature-Detektoren identifiziert werden können, die zur Objekterkennung beigetragen haben, und diese verwenden, um eine mögliche Objektlokalisierungsregion vorzuschlagen.

+0

Vielen Dank für die Antwort! –

2

Es gibt einige neuere Techniken, um die Objekte in CNNs zu lokalisieren. Sehen Sie dieses Papier http://cnnlocalization.csail.mit.edu/Zhou_Learning_Deep_Features_CVPR_2016_paper.pdf

Es verwendet eine Ebene namens Global Average Pooling (GAP), und ohne zusätzliche Arbeit kann das CNN das Objekt, das es erkennt, lokalisieren.

Auch dieses wirklich gute Blog-Beitrag Kasse: https://alexisbcook.github.io/2017/global-average-pooling-layers-for-object-localization/