Ich probiere OpenNLP Satzerkennungstool aus. Der Text befindet sich in einer Datei - para3.txt. Inhalt:Satzerkennung mit OpenNLP
Bob went to London Mary came from Paris Now everything is fine.
ich dies mit folgendem Befehl renne:
opennlp SentenceDetector ../models/en-sent.bin < para3.txt
ich die Ausgabe wie folgt aus:
Bob went to London Mary came from Paris Now everything is fine.
Im Idealfall würde ich drei Sätze als Ausgabe gesehen haben:
Bob went to London.
Mary came from Paris.
Now everything is fine.
Jetzt, wenn ich tr y für andere Sätze, bei denen "Voller Stopp" oder "Periode" vorhanden ist, ist die Satzerkennung in Ordnung. Ein Mensch hätte geahnt, dass es drei Sätze im Text gibt, aber wie schafft man es mit OpenNLP? Welche Tools von NLP könnten hier helfen ??? Was ist die nächste Stufe der Satzerkennung?
Die meisten trainierten Modelle für Satz-Chunking versuchen zwischen Punkten zu unterscheiden, die als Punkte oder Akronyme, Titel usw. erscheinen. Sie haben einen sehr speziellen Fall, für den Sie am ehesten eine spezielle Technik anwenden oder eine neue trainieren müssen Modell. –