2016-04-21 13 views
0

Ich versuche, den ffi-aspell Edelstein zu verwenden, um einen Text zu buchstabieren. Um das zu tun, scheint es, dass ich die Wörter selbst extrahieren muss. Ich versuche das zu tun, indem ich String#scan auf den Text mit einer Regex anwende, aber es scheint nicht einfach.Zeichenklassen, die in ffi-aspell verwendet werden

Was ist der einfachste Weg, um die Klasse der Zeichen zu definieren, die in einem ffi-aspell Wörterbuch einer Sprache erscheinen können? Ich will es nicht nur für Englisch verfügbar machen, so Dinge wie /[a-zA-Z']/ für das Zeichen (oder das Wort) funktioniert nicht. /[[:word:]]/ scheint Zeichen zu erfassen, die nicht im Wörterbuch sind, wie z. B. Ziffern, und stimmt außerdem nicht mit dem Apostroph (einfaches Anführungszeichen) überein, das häufig in einem Wort verwendet wird. Gibt es eine Dokumentation, die den Zeichensatz definiert, der in einem ffi-aspell-Wörterbuch verwendet wird?

+1

Wäre es nicht einfacher, 'ffi_aspell' _dictionary_ zuerst nach Einträgen zu durchsuchen und danach einfach 'Regexp # union' uniques? – mudasobwa

+0

@mudasobwa Ich denke, das würde eine perfekte Lösung geben. Es wäre flexibel und gibt genau die Menge an, die ich möchte. Kannst du das zu einer Antwort machen? – sawa

Antwort

1

Ich denke, es wäre einfacher, danach zu scannen ffi_aspellWörterbuch zuerst für Einträge und nur irgendwie Regexp#union unique.