Ich muss einen Klassifikator erstellen, der NEs in einer bestimmten Domäne identifiziert. Wenn also zum Beispiel meine Domain Hockey oder Football ist, sollte der Klassifikator NEs in dieser Domain akzeptieren, aber NICHT alle Pronomen, die er auf Webseiten sieht. Mein oberstes Ziel ist es, die Textklassifizierung durch NER zu verbessern.ML-basierte Domain-spezifische namens Enitty-Erkennung (NER)?
Für Leute, die in diesem Bereich arbeiten, bitte schlagen Sie mir vor, wie sollte ich solch einen Klassifikator bauen? danke!
was ich tun möchte, ist eine Webseite Klassifizierung wirklich auf NER basiert . Aus diesem Grund habe ich eine engere Domain wie Hoeky, Football (nicht Sport) gewählt. Also möchte ich, dass der Klassifikator Pronomen (Spielernamen, Teams, Produktionsfirmen usw., die alle verwandt sein können) auf dieser Domäne identifiziert, aber nicht alle Pronomen. – KillBill
Forts. Es ist in Ordnung, wenn der Klassifikator einige nicht verwandte Entitäten aufgreift, da kein Klassifikator 100% ig genau ist. Ich verstehe nicht, wie der POS-Tagger, gefolgt vom NER-Algorithmus, Pronomen ignoriert, wie Sie erwähnt haben. Ich denke, was ich will, ist das, was Sie in 'Ein wenig unzusammenhängender Kommentar' erwähnt haben; Ja, der Klassifikator sollte die Kontexte untersuchen, in denen die Entitäten auftreten. Also muss ich Trainingsdaten sammeln, indem ich manuell Listen dieser Entitäten erstelle, oder? – KillBill
Der POS-Tagger, den ich erwähnt habe, war nicht für den NER-Klassifikator (obwohl POS-Tags nützliche Funktionen sind) - es ist für Ihre Nachbearbeitung. Nach dem NE-Tagging empfehle ich Ihnen, alle benannten Entitäten zu entfernen, deren POS-Tag PP ist. – mbatchkarov