2010-04-01 4 views
23

Aus Ihrer Erfahrung, was ist die genaueste Open-Source-OCR-Bibliothek/-Software (Optical Character Recognition) zum Lesen von japanischem Text?Genaueste Open-Source-OCR für Japanisch?

Ich habe gerade versucht nhocr, seine Fehlerquote ist über 2% sogar auf einem sehr sauberen High-Definition-Dokument.

+1

Für was es wert ist, 2% ist nicht schlecht für OCR. Wir kämpfen darum, das mit, ähm, Romaji zu erreichen. –

+0

2% ist für ultra-saubere Zeichen in großer Schrift. Für gescannte Bücher ist es viel schlimmer, geschweige denn handgeschriebene Formulare. –

Antwort

4

Basierend auf dem Mangel an Antworten klingt es wie nhocr ist die genaueste Open-Source-OCR für Japanisch.

2

Haben Sie es nicht selbst versucht, aber vielleicht sollten Sie sich tesseract ansehen.

+0

Japanisch ist nicht verfügbar, auch nicht als separater Download: http://code.google.com/p/tesseract-ocr/downloads In der Readme wird kurz erwähnt, dass Japanisch entfernt wurde und irgendwo verfügbar ist, aber eigentlich ist es nirgendwo zu finden gefunden werden :-(http://code.google.com/p/tesseract-ocr/wiki/ReadMe Auf der Mailingliste berichtete ein Benutzer über Erfolgstraining Tesseract auf 60 japanische Zeichen, aber es ist eindeutig experimentell. In Fazit, es könnte möglich sein, aber in der Praxis verwendet niemand Tesseract für Japanisch –

+0

Ich weiß nicht Japanisch, aber die Tatsache, dass sie eine japanische Gruppe hatten, schien interessant: http://groups.google.co.jp/group/ tesseract-ocr/(aber wenn man es anschaut könnte es auch eine japanische Version des internationalen sein, sorry, wenn ich deine Zeit verschwende) – baol

+1

@Nicolas Ich habe das Problem http://code.google.com/p/tesseract geöffnet -O cr/issues/detail? id = 291 über die fehlenden CJK-Dateien – SamB

0

Ich habe einige R & D Erfahrung mit ABBYY-Lösung - FineReader Engine. Es war damals Version 8.1, und ich bin nicht auf dem neuesten Stand mit ihren neuesten Revisionen. Aber zu der Zeit - es war einfach das Beste, was ich für unser Handheld-Scanner-Produkt finden konnte. Ich empfehle es sehr.

BTW, Sie können eine kostenlose Version des ABBYY OCR-Pakets für Endbenutzer erhalten, wenn Sie einen XEROX PE220-Drucker kaufen, der im Lieferumfang enthalten ist. Dieser Drucker war mehrere Jahre auf meinem Schreibtisch. Es müssen andere Drucker mitgeliefert werden, die darin enthalten sind. Xerox setzte auch auf OC OCR als das Beste.

+0

FineReader ist NICHT Open-Source. Und die von Ihnen verwendete Version unterstützte Japanisch NICHT: http://www.abbyy.com/Default.aspx?DN=b6d671c1-6da6-4bec-8c06-0ad362f6a7e9 –

+3

Sorry, die Open-Source-Anfrage wurde nicht angezeigt. Es ist nicht Open-Source. Die Version, die ich verwendete, hatte CJK-Unterstützung (Chinesisch, Japanisch und Koreanisch), was ein Add-On für die Engine ist. Wir benutzten es, um unseren Kunden im Südosten unsere Technologie vorzuführen. SIEHE AT: http://www.ocr.gr/downloads/Engine%208.1%20What% 20New.pdf (kopieren Sie die URL, weil SO es bricht) –

+0

@Etamar ABBYY OCR ist interessant. Erlauben sie die Integration in ein benutzerdefiniertes Wörterbuch, die Anpassung der Bigramm-Analyse usw.?Wir müssen diese Techniken verwenden, um die Genauigkeit der OCR zu verbessern. –

-1

Bitte versuchen Sie WeOCR. Serverversion und Downloadversion sind verfügbar.

+0

Wenn ich es gut verstehe, ist WeOCR nur ein Web-Front-End für andere OCR-Engines. Insbesondere verwendet es Nhocr für Japanisch. Also ich denke, es ist nicht genauer als nhocr, oder? –

+0

Siehe http://weoc.ocrgrid.org/#todo Eines der TODO-Elemente ist "Entwickle eine OCR für Japanisch" und es führt zu nhocr –

+1

Yah. Das ist richtig. Vor ein paar Monaten habe ich ihre Online-Server-Version ausprobiert. Aber es war alles andere als genau. Japanisches Handy. speziell Sharp Handy hat recht gute OCR-Fähigkeit. Aber ich habe keine andere kostenlose OCR-Software gefunden. Natürlich verkauft Sharp ihre OCR-Software zu diesem Zeitpunkt noch nicht. – kmugitani