2016-06-24 8 views
0

Diese SO answer schlägt vor, dass Training Tesseract mit .tif Dateien hat einen Vorteil gegenüber .png Dateien, weil die .tif Dateien können mehrere Seiten und damit eine größere Trainingsstichprobe haben. Jedoch beschreibt diese SO question Prozeduren zum Training mit mehreren Bildern gleichzeitig. Mehr noch, die man Seite für z.B. mftraining schlägt vor, dass es mehrere Trainingsdateien akzeptieren kann.Tesseract: Vorteil gegenüber mehrseitiger Trainingsdatei und mehreren separaten Dateien?

Gibt es einen Grund, nicht mit mehreren separaten Bilddateien zu trainieren?

Antwort

0

Es scheint, dass mehrere Bilder mit trainieren tesseract auf einer einzigen Schrift scheint ganz gut zu funktionieren. Unten ist eine Skizze des Arbeitsablaufs, den ich verwende:

# Convert files to .pdf 
convert -density 600 Page1.pdf eng1.MyNewFont.exp1.png 
convert -density 600 Page2.pdf eng1.MyNewFont.exp2.png 

# Create .box files 
tesseract eng1.MyNewFont.exp1.png eng1.MyNewFont.exp1 -l eng batch.nochop makebox 
tesseract eng1.MyNewFont.exp2.png eng1.MyNewFont.exp2 -l eng batch.nochop makebox 

## correct boxes with jTessBoxEditor or another box editor ## 

# Create two new box.tr files: eng1.MyNewFont.exp1.box.tr and eng1.MyNewFont.exp2.box.tr 

tesseract eng1.MyNewFont.exp1.png eng1.MyNewFont.exp1.box -l eng1 nobatch box.train.stderr 
tesseract eng1.MyNewFont.exp2.png eng1.MyNewFont.exp2.box -l eng1 nobatch box.train.stderr 

# Extract characters from the two .box files 
unicharset_extractor eng1.MyNewFont.exp1.box eng1.MyNewFont.exp2.box 

echo "MyNewFont 0 0 0 0 0" >> font_properties 

# train using the two new box.tr files. 
mftraining -F font_properties -U unicharset -O eng1.unicharset eng1.MyNewFont.exp1.box.tr eng1.MyNewFont.exp2.box.tr 
cntraining eng1.MyNewFont.exp1.box.tr eng1.MyNewFont.exp2.box.tr 

## rename files 
mv inttemp eng1.inttemp 
mv normproto eng1.normproto 
mv pffmtable eng1.pffmtable 
mv shapetable eng1.shapetable 

combine_tessdata eng1. ## create .traineddata file. 
0

Sie können sicherlich mit mehreren Bilddateien trainieren; Tesseract würde sie mit unterschiedlichen, separaten Schriftarten behandeln. Und es gibt ein Limit (64) für die Anzahl der Bilder. Wenn sie eine gemeinsame Schriftart verwenden, wäre es besser, sie in ein mehrseitiges TIFF zu schreiben. Gemäß seinen Spezifikationen kann eine TIFF-Datei ein Container sein, der viele Bilder enthält.

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract https://en.wikipedia.org/wiki/Tagged_Image_File_Format

+0

Will Tesseract notwendigerweise behandeln sie als verschiedene Schriftarten? Ich habe meine Frage bearbeitet, um einen Workflow zu erstellen, bei dem ich denke, dass * zwei Bilder verwendet werden, um eine einzelne Schriftart zu trainieren. Ist da etwas fehlerhaft? Vielen Dank! –

+0

Ich trainiere normalerweise mit mehrseitigen TIFF, aber Ihr Workflow scheint praktikabel zu sein, außer es scheint, ein paar Schritte (Befehle) zu verpassen. – nguyenq