2016-06-23 10 views
0

Wie auf diesem SO Question diskutiert, funktioniert Tesseract oft besser mit .png-Dateien als mit .tiff-Dateien. (Ich habe das auch selbst erlebt). Leider sind weniger Box-Editoren verfügbar, die .png-Dateien verarbeiten können. Ich bin daher versucht, meine Daten mit TIFF-Dateien zu trainieren, aber dann. Png-Dateien für meine Haupt-OCR-Arbeit. Wird dies die Effektivität des Trainings reduzieren? Wenn ja, gibt es Möglichkeiten, das Problem zu lösen (außer einen Box-Editor zu finden, der .png-Dateien akzeptiert)?Tesseract - Zug mit einem anderen Bildformat als für die primäre OCR verwendet

Antwort

1

Einige Editoren wie jTessBoxEditor (Tesseract AddOns Seite) unterstützen sowohl TIFF als auch PNG Formate. Da TIFF ein mehrseitiges Bild sein kann, kann es viel mehr Samples für Ihren Zeichensatz haben als einseitiges PNG.

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

+0

Interessant, danke! Weißt du, jTessBoxEditor ist, was ich benutzt habe. Ich hatte versucht, es mit einer 600-dpi-PNG-Datei (nur 212 KB) zu verwenden, und es würde es einfach nicht laden. Aber als ich herunterging, sogar nur auf 500 dpi, funktionierte es. Ich bin mir nicht sicher, was damit los ist. Aber ich hatte vorher nur gedacht, dass es unmöglich war, mit .png zu verwenden, basierend auf meiner Erfahrung mit der 600dpi-Datei. Aber nachdem du deine Antwort gelesen und es versucht hast, hat es funktioniert! Danke auch für all deine tolle Arbeit am Programm und deine weiteren super hilfreichen Antworten hier auf SO. –

+0

Auch, damit ich die Kommentare nicht mit zu vielen getrennten Fragen auffülle, habe ich [this] (http://stackoverflow.com/questions/38018256/tesseract-advantage-to-multi-page-training-file) gepostet -vs-multiple-separate-files) neue Frage als Follow-up zu Ihrem Kommentar zu mehrseitigen '.tif' Bildern. Alle Einsichten, die Sie dazu haben, würden auch sehr geschätzt werden! Vielen Dank! –

+0

Es sollten keine Grenzen gesetzt sein, es sei denn, es ist nicht genügend Speicher verfügbar. Versuchen Sie, das Programm mit einer größeren JVM-Heap-Größe auszuführen und das 600-dpi-Bild erneut zu laden. – nguyenq