Es scheint, dass mehrere Bilder mit trainieren tesseract auf einer einzigen Schrift scheint ganz gut zu funktionieren. Unten ist eine Skizze des Arbeitsablaufs, den ich verwende:
# Convert files to .pdf
convert -density 600 Page1.pdf eng1.MyNewFont.exp1.png
convert -density 600 Page2.pdf eng1.MyNewFont.exp2.png
# Create .box files
tesseract eng1.MyNewFont.exp1.png eng1.MyNewFont.exp1 -l eng batch.nochop makebox
tesseract eng1.MyNewFont.exp2.png eng1.MyNewFont.exp2 -l eng batch.nochop makebox
## correct boxes with jTessBoxEditor or another box editor ##
# Create two new box.tr files: eng1.MyNewFont.exp1.box.tr and eng1.MyNewFont.exp2.box.tr
tesseract eng1.MyNewFont.exp1.png eng1.MyNewFont.exp1.box -l eng1 nobatch box.train.stderr
tesseract eng1.MyNewFont.exp2.png eng1.MyNewFont.exp2.box -l eng1 nobatch box.train.stderr
# Extract characters from the two .box files
unicharset_extractor eng1.MyNewFont.exp1.box eng1.MyNewFont.exp2.box
echo "MyNewFont 0 0 0 0 0" >> font_properties
# train using the two new box.tr files.
mftraining -F font_properties -U unicharset -O eng1.unicharset eng1.MyNewFont.exp1.box.tr eng1.MyNewFont.exp2.box.tr
cntraining eng1.MyNewFont.exp1.box.tr eng1.MyNewFont.exp2.box.tr
## rename files
mv inttemp eng1.inttemp
mv normproto eng1.normproto
mv pffmtable eng1.pffmtable
mv shapetable eng1.shapetable
combine_tessdata eng1. ## create .traineddata file.
Will Tesseract notwendigerweise behandeln sie als verschiedene Schriftarten? Ich habe meine Frage bearbeitet, um einen Workflow zu erstellen, bei dem ich denke, dass * zwei Bilder verwendet werden, um eine einzelne Schriftart zu trainieren. Ist da etwas fehlerhaft? Vielen Dank! –
Ich trainiere normalerweise mit mehrseitigen TIFF, aber Ihr Workflow scheint praktikabel zu sein, außer es scheint, ein paar Schritte (Befehle) zu verpassen. – nguyenq