2016-04-12 15 views
0

Ich benutze Ephesoft Community Edition 4.0.2.0 mit TIF-Bildern (getestet von Ephesoft) das Problem, dass Ephesoft Daten von bestimmten Bildern aber aus klassifizieren oder extrahieren kann andere kann er nicht ohne Fehlermeldung in Dateien loggen, ich weiß jetzt nicht warum.Ephesoft kann bestimmte TIF-Bild nicht lernen oder extrahieren (nicht alle Bilder)

Wenn ich auf Dateien lernen die HOCR und HTML-generierten Dateien ohne Daten leer sind wie diese Metadaten:

Application_Checklist_HOCR.xml:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?> 
<HocrPages<HocrPage> 
<Title></Title><Spans/> 
<HocrContent></HocrContent> 
</HocrPage></HocrPages> 

Aber für US-invoice_HOCR. xml ephesoft kann lernen und die Datei sieht so aus:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?><HocrPages><HocrPage> 

<Title></Title><Spans><Span><Value>INVOICE</Value><Coordinates><x0>579</x0> 

<y0>247</y0><x1>881</x1><y1>304</y1></Coordinates></Span><Span> 

<Value>ACME</Value><Coordinates><x0>168</x0><y0>394</y0><x1>311</x1><y1>431</y1> 

</Coordinates></Span><Span><Value>Company</Value><Coordinates><x0>329</x0> 

<y0>395</y0><x1>541</x1><y1>442</y1></Coordinates></Span><Span> 

<Value>lnvoice</Value><Coordinates>............ 
+0

Bis ............ –

+0

Ich habe genau das gleiche pb. Aber wenn ich Tesseract direkt in der Befehlszeile verwende, funktioniert es gut. Dies ist die Befehlszeile:> tesseract myfile.tif myfile hocr. Wenn es jedoch von Ephesoft ausgeführt wird, erzeugt es eine nutzlose HOCR-HTML-Datei. – ElArbi

+0

Sie können die Tesseract-Konfigurationsdatei in /Path-To-Ephesoft/Application/WEB-INF/classes/META-INF/dcma-tesseract/tteseract-reader.properties ändern und diese Zeile mit # testeracts.command_parameters = -psm 4 kommentieren Lassen Sie tesseract die Standardsegmentierung verwenden. –

Antwort

1

Sie können modi fy die Tesseract-Konfigurationsdatei in/Pfad zu Ephesoft/Application/WEB-INF/Klassen/META-INF/dcma-tesseract/tesseract-reader.properties und kommentiere diese Zeile # tesseract.command_parameters = -psm 4 um zu lassen tesseract verwendet die Standardsegmentierung.