7

So gibt es viele Möglichkeiten, wie man HoG-Funktionen extrahieren kann. Verwenden unterschiedlicher Orientierungen, unterschiedliche Anzahl von Pixeln pro Zelle und unterschiedliche Blockgrößen.Ideale Anzahl von HoG-Funktionen

Aber gibt es eine Standard- oder optimale Konfiguration? Ich habe Trainingsbilder der Größe 50x100, und ich wähle für 8 Richtungen der Orientierung. Ich extrahiere die Merkmale aus den Trainingsdaten, um die Fahrzeugklassifizierung durchzuführen. Aber ich weiß wirklich nicht, was "optimal" ist.

Zum Beispiel habe ich hier 2 Konfigurationen, gibt es einen Grund, einen über den anderen zu wählen? Persönlich habe ich das Gefühl, dass der zweite eine bessere Wahl ist, aber warum?

enter image description here

enter image description here

Antwort

7

I verwendet HOG für Produkterkennung. Nach dem, was ich damals verstanden habe, weisen Sie auf ein echtes Problem des Standard-HOG hin. Es gibt einfach keine optimale Konfiguration, es kommt auf den Datensatz an. Wenn Sie die optimalen Werte für Ihr Dataset haben und anschließend die Größe aller Bilder Ihres Datasets ändern, sollten Sie auch Ihre Größe ändern. Daher gibt es keine optimalen "one size fits all" -Werte für HOG.

Aber alles ist nicht verloren. Was Sie stattdessen tun sollten, ist eine Methode, die "die ganze Zeit" funktioniert. Die Idee ist, Spatial Pyramid Matching zu tun. Dies macht HOG auf verschiedenen Skalen und kombiniert sie zusammen. Ein Bild ist mehr wert als tausend Worte:

From the article

Sie das hier sehen können, Ebene 2 nur die Standard-HOG mit feinen Zellen ist. Aber vielleicht ist es nicht die beste Skalierung (weil die Zellen zu klein sind und man nur Rauschen beobachtet) (Andererseits sind zu große Zellen wie Level 0 möglicherweise zu groß und Sie haben überall einheitliche Histogramme). Sie können die besten Gewichtungen für jede Ebene berechnen, wenn Sie das Training für Ihr Dataset durchführen, und Sie wissen, was die optimalen Werte sind, dh: Welche Zelle ist am relevantesten?

+0

Aber für eine Person, die eine Erfahrung mit HoG-Funktionen hat Stimmst du auch zu, dass das untere Bild, das ich auflege, eine bessere HoG-Skala hat als das obere Bild? – user961627

+0

Aus persönlicher Erfahrung, wenn Bild nicht sehr klein ist, 8x8 Pixel pro Zelle ist oft die gute Konfiguration. Und 9 Orientierung - UoCTTI Variante. P. F. Felzenszwalb, R. B. Grishick, D. McAllester und D. Ramanan. Objekterkennung mit diskriminativ trainierten teilbasierten Modellen. PAMI, 2009. –

+0

was meinst du mit "sehr klein". Ich nehme an, 50x100 Bilder würden sich als nicht sehr klein qualifizieren? – user961627