2016-08-04 19 views
2

Ich verwende Scikit-Learn, um Texte (in meinem Fall Tweets) mit LinearSVC zu klassifizieren. Gibt es eine Möglichkeit, Texte als nicht klassifiziert zu klassifizieren, wenn sie schlecht zu einer der Kategorien passen, die im Trainingssatz definiert sind? Zum Beispiel, wenn ich Kategorien für Sport, Politik und Kino habe und versuche, die Klassifizierung auf einem Tweet über Computer zu prognostizieren, sollte es nicht klassifiziert bleiben.Scikit-Lernen- Wie man eine Kategorie "nicht klassifiziert" hinzufügen?

Antwort

1

In dem überwachten Lernansatz wie es ist, können Sie keine zusätzliche Kategorie hinzufügen.

Daher würde ich einige Heuristiken verwenden. Versuchen Sie, die Wahrscheinlichkeit für jede Kategorie vorherzusagen. Wenn dann alle 4 oder mindestens 3 Wahrscheinlichkeiten ungefähr gleich sind, können Sie sagen, dass die Probe "unbekannt" ist. Für diesen Ansatz ist LinearSVC oder eine andere Art von Support Vector Classifier schlecht geeignet, weil es nicht natürlich Wahrscheinlichkeiten gibt. Ein anderer Klassifikator (Logistische Regression, Bayes, Bäume, Wälder) wäre besser