2

Ich muss einen Klassifikator erstellen, der NEs in einer bestimmten Domäne identifiziert. Wenn also zum Beispiel meine Domain Hockey oder Football ist, sollte der Klassifikator NEs in dieser Domain akzeptieren, aber NICHT alle Pronomen, die er auf Webseiten sieht. Mein oberstes Ziel ist es, die Textklassifizierung durch NER zu verbessern.ML-basierte Domain-spezifische namens Enitty-Erkennung (NER)?

Für Leute, die in diesem Bereich arbeiten, bitte schlagen Sie mir vor, wie sollte ich solch einen Klassifikator bauen? danke!

Antwort

1

Wenn Sie nur Pronomen ignorieren möchten, können Sie jeden POS-Tagger gefolgt von jedem NER-Algorithmus ausführen (das Stanford-Paket ist eine beliebte Implementierung) und dann alle benannten Entitäten ignorieren, die Pronomen sind. Die Pronomen können sich jedoch auf benannte Entitäten beziehen, die für die Leistung Ihres Klassifikators möglicherweise von Bedeutung sind oder auch nicht. Der einzige Weg, um es sicher zu sagen, es zu versuchen.

Ein etwas unzusammenhängender Kommentar - ein NER-System, das auf domänenspezifische Daten trainiert wurde (zB Hockey), nimmt eher Entitäten aus dieser Domäne auf, weil es einige der Kontextinstanzen gesehen haben wird. Abhängig vom System Es kann auch Entitäten von anderen Domänen (die Sie nicht wollen, wenn ich Ihre Frage richtig verstehe) aufgrund von Syntax, Wortformmustern, etc.

+0

was ich tun möchte, ist eine Webseite Klassifizierung wirklich auf NER basiert . Aus diesem Grund habe ich eine engere Domain wie Hoeky, Football (nicht Sport) gewählt. Also möchte ich, dass der Klassifikator Pronomen (Spielernamen, Teams, Produktionsfirmen usw., die alle verwandt sein können) auf dieser Domäne identifiziert, aber nicht alle Pronomen. – KillBill

+0

Forts. Es ist in Ordnung, wenn der Klassifikator einige nicht verwandte Entitäten aufgreift, da kein Klassifikator 100% ig genau ist. Ich verstehe nicht, wie der POS-Tagger, gefolgt vom NER-Algorithmus, Pronomen ignoriert, wie Sie erwähnt haben. Ich denke, was ich will, ist das, was Sie in 'Ein wenig unzusammenhängender Kommentar' erwähnt haben; Ja, der Klassifikator sollte die Kontexte untersuchen, in denen die Entitäten auftreten. Also muss ich Trainingsdaten sammeln, indem ich manuell Listen dieser Entitäten erstelle, oder? – KillBill

+0

Der POS-Tagger, den ich erwähnt habe, war nicht für den NER-Klassifikator (obwohl POS-Tags nützliche Funktionen sind) - es ist für Ihre Nachbearbeitung. Nach dem NE-Tagging empfehle ich Ihnen, alle benannten Entitäten zu entfernen, deren POS-Tag PP ist. – mbatchkarov