2016-05-03 5 views
0

Ich klassifiziere Dokumente basierend auf ihrer Tasche der Wörter Darstellung (Features: 1000). Für die Klassifizierung verwende ich eine SVM, es scheint, dass die SVM manchmal nicht endet und endlos läuft. (Laufendes sci-kit: SVC (C = 1.0, kernel = 'linear', cache_size = 5000, verbose = True)) Jetzt suche ich nach einer Lösung, ich habe darüber nachgedacht, einen MinMax-Scaler anzuwenden, um eine Berechnung zu erhalten effiziente Dokumentendarstellung. Aber vermassele ich meine Tasche der Wortdarstellung mit der Feature-Normalisierung?Text-Klassifizierung: Beutel mit Wörtern mit MinMax-Scaler

Vielen Dank im Voraus!

Antwort

0

Es endet, einfach ganz langsam. Skalieren Sie Ihre Tasche von Wörtern wird nichts "schrauben" - eigentlich ist es sehr gebräuchliche Technik, Sie werden eher selten ein Modell, das Beutel von Wörtern verwendet - Sie verwenden entweder Satz von Wörtern (die per Definition skaliert ist) oder Som Maßstab normalisierten Sack von Wörter wie tf-idf (das ist normalerweise besser als nur "quetschen" durch min max). Im Allgemeinen ist Minmax eine sehr grobe Technik, extrem empfindlich gegenüber Ausreißern (wenn Sie also ein Dokument haben, das aus 1000 Vorkommen von Wort "foo" besteht, wird Ihre "foo" Dimension um 1000 gequetscht, obwohl es nur ein einzelner Ausreißer ist). Folglich - lieber tfidf oder zumindest Standard-Scaler.