2016-08-06 37 views
0

Datensatz mit weniger Ja (6%) und mehr Nein (94%). Alle Klassifizierungsalgorithmen (ANN, C4, CART) in SPSS sagen alle Werte im Testset als Nein voraus. Was mache ich?Datensatz mit weniger Ja (6%) und mehr Nein (94%). Alle Klassifizierungsalgorithmen (ANN, C4, CART) in SPSS sagen alle Werte im Testset als Nein voraus. Was mache ich?

Die Daten haben etwa 2500 Zeilen und 85 Spalten.

+1

Sie haben dies als R related markiert. Haben Sie einen R-Code, der das relevant machen könnte? Sie haben auch eine massive Klassenungleichheit, während ich zwischen den Zeilen lese, die mit dem Ergebnis nicht überrascht. – PharmR

Antwort

1

Untersuchen Sie Oversampling-Techniken, wie zum Beispiel in R implementiert durch die SMOTE Funktion in DMwR package.

Hier ist eine kurze Anleitung: http://amunategui.github.io/smote/
und hier ein Video Youtube: https://www.youtube.com/watch?v=1Mt7EuVJf1A

Die Smote Funktion Ihres seltenes Ereignis überabtastet von Bootstrapping und k-nächsten Nachbarn unter Verwendung von synthetisch zusätzlichen Beobachtungen davon erstellen Veranstaltung. Die Definition eines seltenen Ereignisses wird normalerweise irgendeiner Ergebnis/abhängigen/Ziel/Antwort-Variablen zugeschrieben, die weniger als 15% der Zeit passiert.

+0

Danke :) Genau das, was ich gesucht habe! – user3655009