2016-06-11 4 views
0

Ich habe gerade angefangen, mit Stanford NLP Kern zu arbeiten.Stanford NLP: Interpunktionsfehler Identifikation

Mein Problem ist, dass viele der Sätze in meinem Korpus nicht mit einem Punkt (Punkt) enden.

Ehrlich gesagt, könnte ein bisschen String-Analyse mit regulären Ausdrücken das Problem wahrscheinlich beheben, aber mit einem gewissen Grad an Fehler.

Ich bin gespannt, ob Stanford NLP fehlende Perioden identifizieren kann.

Antwort

1

Es sieht aus wie edu.stanfordn.nlp.process.DocumentPreprocessor kann verwendet werden, um Absätze in Sätze zu trennen, obwohl ich nicht sicher bin, wie gut es ohne richtige Interpunktion funktioniert.

Es gibt viele andere Tokenizer auf Satzebene, mit denen Sie Ihren Korpus vorverarbeiten können. Schauen Sie sich NLTKs nltk.tokenize.punkt module an, die einen ML-Algorithmus verwendet, um Satztoken in Ermangelung guter Großschreibung/Interpunktion zu erstellen.