2016-07-11 24 views
1

OCR-Programme erkennen häufig den Großbuchstaben O fälschlicherweise als Null oder umgekehrt. Zum Beispiel könnten sie Over als 0 oder als we11 erkennen.Wie ändere ich eine Hunspell-Affix-Datei, um Zahlen in Wörtern zuzulassen?

Ich versuchte

REP 0 O 
REP 1 l 

zur Affix-Datei hinzufügen, aber es hat nicht funktioniert, weil Zahlen scheinbar Wortgrenzen berücksichtigt werden.

(ich hatte einen Blick auf den hunspell man page, aber ich kann, welcher der zahlreichen Einstellungen nicht herausfinden muss geändert werden, damit Zahlen in Worten.)

Antwort

1

Aus dem manpages:

REP was Ersatz Diese Tabelle spezifiziert Änderungen, um zuerst zu versuchen. Erster REP ist der Header dieser Tabelle und eine oder mehrere REP-Datenzeile sind nach ihm. Mit dieser Tabelle kann Hunspell die richtigen Formulare für die typischen Rechtschreibfehler vorschlagen, wenn das falsche Formular um mehr als 1 Buchstabe von der rechten Form abweicht. Der Such-String unterstützt die Regex-Boundary-Zeichen (^ und $). Zum Beispiel eine mögliche Definition Englisch Ersetzungstabelle falsch geschriebene Konsonanten zu handhaben:

  REP 5 
      REP f ph 
      REP ph f 
      REP tion$ shun 
      REP ^cooccurr co-occurr 
      REP ^alot$ a_lot 

Haben Sie fügen Sie die erste Zeile, REP + Anzahl der Ersatz?

+0

Danke für Ihre Antwort. Ich habe den Header mit der Anzahl der folgenden Einträge hinzugefügt und alle anderen REP-Anweisungen funktionieren. Was nicht funktioniert ist: 'REP 0 O' –

+0

Denkst du, dass es möglich ist, dass HUNSPELL REP gefolgt von einer ganzen Zahl sieht, und interpretiert es als eine Überschrift, anstatt eine Ersetzung? In diesem Fall könnte die Nullsetzung am Ende funktionieren, wenn ich nicht befürchte, dass dies ein Versehen der Hunspell-Implementierung ist. –

+0

Sie haben wahrscheinlich Recht. Der Hunspell-Parser wird wahrscheinlich durch Zahlen in REP-Anweisungen verwirrt. –