2016-07-12 21 views
1

Ich habe sehr viele Ordner mit einer großen Anzahl von Bilddateien darin. Gelegentlich landet ein gescanntes Dokumentbild aus Versehen in einem Ordner, und wenn jemand den Ordner visuell scannt, bleiben diese unerkannt, können aber Probleme verursachen, wenn sie an der falschen Stelle veröffentlicht werden.Ermitteln Sie den Inhalt einer Bilddatei: Finden Sie ein gescanntes Dokument zwischen den Bildern

Da sie gescannt werden könnten, da alle Dateitypen und -größen weitgehend im Bereich der echten Bilder liegen, sind sie aus Metadaten nur schwer zu erkennen.

Kennt jemand eine Möglichkeit, ein gescanntes Dokument aus einem echten Bild zu erkennen - entweder ein Werkzeug oder eine programmatische Methode?

Antwort

4

Ich würde empfehlen, einen Blick auf das Accord Framework: http://accord-framework.net/. Sehen Sie sich die Computer Vision-Funktionen an. Ich denke, es sollte der Aufgabe entsprechen, die du beschreibst, und es ist ein lustiger neuer Bereich, den du lernen kannst. Viel Glück.

+0

Wenn Sie eine Anzahl von Trainingsbeispielen verwenden, sollten Sie in der Lage sein, Ihr Programm (mit Accord oder ähnlichem) zu "lehren", um den Unterschied zu erkennen. –

+0

Ich denke, dies ist wahrscheinlich der beste Weg zu gehen - markieren Sie Bilder für die Überprüfung, die das Muster zu treffen scheinen, und dann erlauben maschinelles Lernen, das Muster auf der Grundlage der menschlichen Überprüfung kontinuierlich zu verfeinern. – BlueChippy

1

Vorausgesetzt, dass gescannte Dokumente wie Dokumente aussehen, sollte jede Bildverarbeitungsbibliothek funktionieren. Sie müssen nur ein paar Funktionen auswählen, um alles zu sortieren, das kein Dokument ist. Wenden Sie eine grundlegende Klassifizierung oder maschinelles Lernen mit diesen Funktionen an.

Die wenigen verbleibenden Dateien können entweder von einem Menschen oder mit einem ORC überprüft werden. Ich würde nicht OCR auf allen Dateien ausführen, da es mehr Rechenzeit als eine einfache Klassifizierung dauert.

Dokumente (besonders die vertraulichen) neigen dazu, einen hellen Hintergrund mit hoher Frequenz dunklen Vordergrund zu haben. Das dunkle Zeug ist in Linien gruppiert. Es gibt wenig bis keine Farben und wenn diese Farben normalerweise nur einen kleinen Bruchteil des Dokuments (Logos und so) sind, kann ich nicht an viele Bilder denken, die diese Eigenschaften teilen.

Wenn Sie also nicht viele Bilder von Zeitungen und Büchern in Ihrer Sammlung haben, geht es Ihnen gut.

Natürlich haben Scanner und Kameras verschiedene Abbildungseigenschaften und optische Aberrationen und ich bin sicher, dass Sie einige von ihnen in den Dateien finden können, aber das wird nicht für alle Bilder funktionieren. Vor allem nicht, wenn diese Bilder von größeren abgeschnitten wurden.

0

Kann es andere Text-im-Hintergrund-Bilder in den Ordnern geben? Sind große Bilder in diesen gescannten Dokumenten üblich? Eine nicht-idiotensichere Methode zum Filtern von meist Textdokumenten aus einem nicht-einfachen Bild-Heuhaufen wäre, die Bilder basierend auf Shannons (Histogramm-) Entropie zu überholen. Die meisten Bilder haben Entropiewerte, die eine Größenordnung über einfachen Dokumenten liegen.