1

Ich erstelle ein Schulungsset für den TokenNameFinder mit HTML-Dokumenten, die in einfachen Text konvertiert wurden, aber meine Genauigkeit ist niedrig und ich möchte die HTML-Tags als Teil des Trainings verwenden. Wie fett gedruckte Wörter und Sätze in verschiedenen Randgrößen. Akzeptiert und verwendet OpenNLP diese Tags, um Regeln zu erstellen? Gibt es eine andere Möglichkeit, diese Tags zu verwenden, um die Genauigkeit zu verbessern?Kann OpenNLP HTML-Tags als Teil des Trainings verwenden?

Antwort

0

Es ist nicht klar, was Sie meinen, wenn Sie HTML-Tags verwenden, um OpenNLP zu trainieren. Der Zug Eingang ist eine kommentierte Tokens übersetzten Satz:

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 . 
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group . 

ein OpenNLP Modell zu trainieren, um die Standard-Werkzeuge verwenden Sie Anmerkungen benötigen folgt dieser Konvention. Beachten Sie, dass die Anmerkungen nicht dem XML-Standard folgen.

Sie können Anmerkungen direkt in die HTML-Dokumente einbetten, die Sie für das Training verwenden. Es könnte sogar dem Klassifizierer mit dem zusätzlichen Kontext helfen, aber ich habe nie irgendwelche experimentellen Ergebnisse darüber gelesen.

Sie sollten bedenken, dass die Trainingsdaten in Token umgewandelt werden sollten. Das bedeutet, dass Sie Leerräume zwischen Wörtern und Satzzeichen sowie zwischen Textelementen und HTML einfügen sollten:

+0

Vielen Dank! Genau das wollte ich. Jetzt werde ich die Genauigkeit mit HTML-Tags testen. Meine Zugeingabe ist bereits symbolisiert. – Shyba