Also habe ich meine eigenen Codes für HoG und seine Variante geschrieben, um mit Tiefenbildern zu arbeiten. Ich bin jedoch dabei, meine trainierte SVM im Erkennungsfenster zu testen.Wie implementiert man einen besseren Schiebefensteralgorithmus?
Alles, was ich gerade gemacht habe, ist, zuerst Bildpyramiden aus dem Originalbild zu erstellen und ein Schiebefenster von 64x128 Größe von oben links nach unten rechts zu laufen.
Hier ist ein Video-Capture davon: http://youtu.be/3cNFOd7Aigc
Nun das Problem ist, dass ich mehr Fehlalarme bekommen als ich erwartet hatte.
Gibt es einen Weg, dass ich alle diese falschen Positiven entfernen kann (neben dem Training mit mehr Bildern)? Bis jetzt kann ich die "Punktzahl" von SVM bekommen, was der Abstand zum Rand selbst ist. Wie kann ich das nutzen, um meine Ergebnisse zu nutzen?
Hat jemand einen Einblick in die Implementierung eines guten gleitenden Fensteralgorithmus?
Große Antwort, aber ich habe noch ein paar Fragen, wenn Sie oder jemand anderes nichts dagegen hat. Wie verwende ich es zusammen mit dem Skalenraum? Behandle ich erkannte Fenster in einem anderen Maßstab als nur einen anderen Nachbarn? Und wie kommt die nicht-maximale Unterdrückung ins Spiel? Trotzdem, vielen Dank für Ihre klare Antwort. –
Gute Frage zu Waagen! Sie könnten in der Tat die Skalierung in der Nachbarschaft einbeziehen (links/rechts/oben/unten/kleiner/größer), aber es hängt stark von Ihren Daten und Ihrem Endziel ab - erhalten Sie viele Multi-Scale-False-Positives? Leider ist Trial-and-Error die beste praktische Methode in der Computer Vision. Über nichtmaximale Unterdrückung, nun, was ich beschrieben habe, ist eine Form der nicht-maximalen Unterdrückung (Sie behalten nur lokale Maxima). – Antoine