2016-06-02 3 views
0

Das Problem, dem ich gegenüberstehe, ist: Ich möchte ein Dokument lesen, die rohe Zeichenfolge dieses Dokuments abrufen und die Informationen klassifizieren. Zum Beispiel möchte ich identifizieren, wenn die Zeichenfolge ein "Name" oder ein "Datum" oder andere nützliche Informationen ist.Klassifizierung von Wörtern in einem Dokument

Ist es möglich, maschinelles Lernen zu nutzen? Wie kann ich das Problem angehen?

Das schwierigste Problem hier ist, dass ich nicht versuche, das Dokument selbst zu klassifizieren, sondern die String-Informationen innerhalb des Dokuments.

+0

Warum nicht? Betrachte einfach einen String als einen kurzen Text. Überprüfen Sie diese Beiträge: http://stats.stackexchange.com/questions/118513/algorithm-recommendation-for-string-classification, http://stats.stackexchange.com/questions/79765/improve-precision-in-text- Einstufung. –

+0

Danke für die Rückmeldung Vadim. Ich schaue mal nach – edubriguenti

Antwort

2

Es geht also alles darum, wie Sie über Ihr Problem denken. Ich denke, dass Ihr Problem als Entity Extraktion/Erkennung Problem formuliert werden kann, wo Sie ein Dokument haben und bestimmte Entitäten innerhalb der Text (wo eine Entität könnte eine Person, Datum, etc.) zu identifizieren. Sehen Sie sich Conditional Random Fields und ihre Anwendungen zur Entity Recognition (kurz NER) an, da einige Bibliotheken & bereits implementiert sind.

Zum Beispiel, überprüfen Sie StanfordNER.

+0

Danke für diesen Tipp. Ich denke, das ist genau das, wonach ich suche. Mein Problem scheint immer wieder, aber ich kannte dieses Akronym nicht. Vielen Dank. – edubriguenti