Ich bin ziemlich neu im Daten Scraping und ich habe ein kleines Problem.Training Tesseract OCR für Mehrdeutigkeiten
Ich versuche, Text aus einem Hindi-PDF mit textract
und Tesseract
OCR zu extrahieren. Im Folgenden finden Sie den Code in Python:
import textract
text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')
Nun sind viele der Wörter aus dem PDF korrekt extrahiert. Es gibt jedoch einige Dinge, die durcheinander sind. Ich lese die Dokumentation und darüber, wie Unklarheiten durch Verwendung einer Datei lang.unicharambigs
überschrieben werden können. Ich muss jedoch combine_tessdata
ausführen, um es tatsächlich zu implementieren und bestimmte trainierte Daten zu überschreiben.
Allerdings, wenn ich versuchen, den Befehl erhalte ich die folgende auszuführen:
-bash: combine_tessdata: command not found
I tesseract
von der Quelle installiert haben, und ich kann nicht scheinen zu verstehen, warum dies geschieht. Irgendwelche Ideen zur Problembehandlung?
Vielen Dank im Voraus!
Okay, das macht Sinn. Das Problem, mit dem ich jetzt konfrontiert bin, ist, wie installiere ich diese Bibliotheken auf einem Mac OSX? 'libicu-dev libpango1.0-dev libcairo2-dev' –