Stanford NLP: Interpunktionsfehler Identifikation

Ich habe gerade angefangen, mit Stanford NLP Kern zu arbeiten.Stanford NLP: Interpunktionsfehler Identifikation

Mein Problem ist, dass viele der Sätze in meinem Korpus nicht mit einem Punkt (Punkt) enden.

Ehrlich gesagt, könnte ein bisschen String-Analyse mit regulären Ausdrücken das Problem wahrscheinlich beheben, aber mit einem gewissen Grad an Fehler.

Ich bin gespannt, ob Stanford NLP fehlende Perioden identifizieren kann.

Quelle

2016-06-11 Jake

Es sieht aus wie edu.stanfordn.nlp.process.DocumentPreprocessor kann verwendet werden, um Absätze in Sätze zu trennen, obwohl ich nicht sicher bin, wie gut es ohne richtige Interpunktion funktioniert.

Es gibt viele andere Tokenizer auf Satzebene, mit denen Sie Ihren Korpus vorverarbeiten können. Schauen Sie sich NLTKs nltk.tokenize.punkt module an, die einen ML-Algorithmus verwendet, um Satztoken in Ermangelung guter Großschreibung/Interpunktion zu erstellen.

Quelle

2016-06-12 04:16:59

Stanford NLP: Interpunktionsfehler Identifikation

Antwort

Verwandte Themen