Das Problem, dem ich gegenüberstehe, ist: Ich möchte ein Dokument lesen, die rohe Zeichenfolge dieses Dokuments abrufen und die Informationen klassifizieren. Zum Beispiel möchte ich identifizieren, wenn die Zeichenfolge ein "Name" oder ein "Datum" oder andere nützliche Informationen ist.Klassifizierung von Wörtern in einem Dokument
Ist es möglich, maschinelles Lernen zu nutzen? Wie kann ich das Problem angehen?
Das schwierigste Problem hier ist, dass ich nicht versuche, das Dokument selbst zu klassifizieren, sondern die String-Informationen innerhalb des Dokuments.
Warum nicht? Betrachte einfach einen String als einen kurzen Text. Überprüfen Sie diese Beiträge: http://stats.stackexchange.com/questions/118513/algorithm-recommendation-for-string-classification, http://stats.stackexchange.com/questions/79765/improve-precision-in-text- Einstufung. –
Danke für die Rückmeldung Vadim. Ich schaue mal nach – edubriguenti