Ich habe einige Dateien von CoreNLP in .conll
Format ausgegeben, und ich möchte sie in ein Annotation
Objekt deserialisieren. Bietet CoreNLP eine CONLL-X DocumentReader
Methode zum Umwandeln .conll
Datei in ein Annotation
Objekt oder muss ich meinen eigenen DocumentReader erstellen?Wie kann ich eine .connl-Datei in ein Annotation-Objekt mit Corenlp laden?
1
A
Antwort
1
Sie können etwas wie TSVSentenceIterator versuchen, die Sätze aus einer CoNLL-ähnlich formatierten TSV-Datei liest.
Aber beachten Sie, dass die Anzahl der Anmerkungen aus einem Annotation-Objekt hängen weit mehr als die Anzahl der Spalten in einer CoNLL-Datei (zB Zeichen-Offsets, etc.), und so würde diese Serialisierung nicht lossless und kann unerwartetes Verhalten haben, wenn Sie das Objekt mit Anmerkungen versehen möchten. Dies ist keine der offiziell unterstützten verlustfreien Serialisierungsstrategien.
Ich habe das Projekt heruntergeladen, aber ich kann die Methode nicht finden, die die Datei als Eingabe nimmt und das Annotation-Objekt in TSVStenceIterator zurückgibt – Gha93
Sie müssen die Datei selbst lesen und dann die Liste der Zeilen an den Konstruktor übergeben. –
Also muss ich meine Datei Satz für Satz in 'public static Sentence toSentence (Liste Felder, Liste Einträge)' Methode. Wo jeder String in Einträgen entspricht einer Token-Zeile? –
Gha93