2016-07-22 32 views
1

Ich arbeite an der Identifizierung von Aspekten (explizite und implizite Aspekte) aus einem Filmprüfungsdatensatz. Hier könnten Aspekte Schauspieler, Regisseure, Produktionsfirmen, Musik, Handlung, Filmtype usw. sein. Obwohl ich viel gesucht habe, habe ich gelernt, dass ich einen NER (name entity recognition) für Filmüberprüfungsdatensätze brauche. Leider ist für meinen Datensatz kein NER verfügbar., wie Name Entity Recognition zu erstellen und seine Leistung in Bezug auf Genauigkeit und Rückruf zu bewerten?

Meine Fragen sind:

  1. wie kann ich meine "Movie NER" in Bezug auf Präzision, Rückruf und F1 Maßnahme bewerten?
  2. Welches Werkzeug sollte ich für diesen Zweck verwenden?

Antwort

2

Antworten:

  1. Wenn Sie nicht Gold Daten haben, zuerst müssen Sie Ihre eigenen Gold-Datensatz mit Anmerkungen versehen und zu erstellen. Dann können Sie diese Daten für Präzisions-, Abruf- und F1-Messungsberechnungen verwenden.

  2. Für NER-Zwecke können Sie Machine-Learning-basierten Ansatz verwenden. Ich kann Ihnen empfehlen, CRF++ zu verwenden. Sie müssen Ihren eigenen Tag-Satz definieren und Daten mit der IOB-Technik annotieren und CRF ++ für Modellschulungen und Testzwecke verwenden. Sie können conlleval.pl verwenden, um die Genauigkeit des Algorithmus in Bezug auf Genauigkeit und Abruf zu berechnen.

+0

so weit, was ich verstand, dass ich meine Daten-Set von dem Schauspieler, Produzenten usw. Zum Beispiel markieren „Ich mag johnny depp, weil er ein guter Schauspieler ist“ und CRF ++ verwendet für die Bewertung? –

+0

CRF ++ wird für ML-Zwecke verwendet und conlleval.pl wird für Genauigkeitsberechnungen verwendet. Für CRF ++ müssen Sie dem "IOB Tagging" -Schema folgen. – RAVI

+0

hallo, ich arbeite mit crf ++, aber ich habe es mit vielen Problemen zu tun, weil es nicht viel Hilfe gibt. Ich habe eine Trainingsdatei, aber wenn ich versuche, mit Template-Datei zu trainieren, habe ich diesen Fehler: encoder.cpp (57): feature_index.cpp (109): inkonsistente Spaltengröße: 3 4 final.txt Eine Sache, die ich erzählen möchte Ich benutze eine Vorlagendatei, die vor Ort verfügbar ist. Ich habe es nicht für meine Trainingsdatei gemacht. Der Grund dafür ist, dass ich das Template-Programm nicht wirklich verstehe. Bitte helfen Sie mir diesbezüglich. –