2016-03-23 11 views
1

Ich bin ziemlich neu im Daten Scraping und ich habe ein kleines Problem.Training Tesseract OCR für Mehrdeutigkeiten

Ich versuche, Text aus einem Hindi-PDF mit textract und Tesseract OCR zu extrahieren. Im Folgenden finden Sie den Code in Python:

import textract 

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin') 

Nun sind viele der Wörter aus dem PDF korrekt extrahiert. Es gibt jedoch einige Dinge, die durcheinander sind. Ich lese die Dokumentation und darüber, wie Unklarheiten durch Verwendung einer Datei lang.unicharambigs überschrieben werden können. Ich muss jedoch combine_tessdata ausführen, um es tatsächlich zu implementieren und bestimmte trainierte Daten zu überschreiben.

Allerdings, wenn ich versuchen, den Befehl erhalte ich die folgende auszuführen:

-bash: combine_tessdata: command not found 

I tesseract von der Quelle installiert haben, und ich kann nicht scheinen zu verstehen, warum dies geschieht. Irgendwelche Ideen zur Problembehandlung?

Vielen Dank im Voraus!

Antwort