2016-05-09 5 views

Antwort

1

Sie können etwas wie TSVSentenceIterator versuchen, die Sätze aus einer CoNLL-ähnlich formatierten TSV-Datei liest.

Aber beachten Sie, dass die Anzahl der Anmerkungen aus einem Annotation-Objekt hängen weit mehr als die Anzahl der Spalten in einer CoNLL-Datei (zB Zeichen-Offsets, etc.), und so würde diese Serialisierung nicht lossless und kann unerwartetes Verhalten haben, wenn Sie das Objekt mit Anmerkungen versehen möchten. Dies ist keine der offiziell unterstützten verlustfreien Serialisierungsstrategien.

+0

Ich habe das Projekt heruntergeladen, aber ich kann die Methode nicht finden, die die Datei als Eingabe nimmt und das Annotation-Objekt in TSVStenceIterator zurückgibt – Gha93

+0

Sie müssen die Datei selbst lesen und dann die Liste der Zeilen an den Konstruktor übergeben. –

+0

Also muss ich meine Datei Satz für Satz in 'public static Sentence toSentence (Liste Felder, Liste Einträge)' Methode. Wo jeder String in Einträgen entspricht einer Token-Zeile? – Gha93