Training Tesseract OCR für Mehrdeutigkeiten

Ich bin ziemlich neu im Daten Scraping und ich habe ein kleines Problem.Training Tesseract OCR für Mehrdeutigkeiten

Ich versuche, Text aus einem Hindi-PDF mit textract und Tesseract OCR zu extrahieren. Im Folgenden finden Sie den Code in Python:

import textract 

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')

Nun sind viele der Wörter aus dem PDF korrekt extrahiert. Es gibt jedoch einige Dinge, die durcheinander sind. Ich lese die Dokumentation und darüber, wie Unklarheiten durch Verwendung einer Datei lang.unicharambigs überschrieben werden können. Ich muss jedoch combine_tessdata ausführen, um es tatsächlich zu implementieren und bestimmte trainierte Daten zu überschreiben.

Allerdings, wenn ich versuchen, den Befehl erhalte ich die folgende auszuführen:

-bash: combine_tessdata: command not found

I tesseract von der Quelle installiert haben, und ich kann nicht scheinen zu verstehen, warum dies geschieht. Irgendwelche Ideen zur Problembehandlung?

Vielen Dank im Voraus!

Quelle

2016-03-23 Rishabh Ranawat

Tesseract Trainingsprogramme werden separat erstellt.

https://github.com/tesseract-ocr/tesseract/wiki/Compiling

Quelle

2016-03-24 01:06:37 nguyenq

Okay, das macht Sinn. Das Problem, mit dem ich jetzt konfrontiert bin, ist, wie installiere ich diese Bibliotheken auf einem Mac OSX? 'libicu-dev libpango1.0-dev libcairo2-dev' –

Training Tesseract OCR für Mehrdeutigkeiten

Antwort

Verwandte Themen