2016-07-11 21 views
0

Angenommen, ich habe Prädiktoren X1, X2, ..., Xn und eine abhängige Variable Y.Warum ist das Fallenlassen von Prädiktoren, die auf einer niedrigen Korrelation zwischen Prädiktoren und der abhängigen Variablen basieren, vor einer fehlerhaften Kreuzvalidierung nicht korrekt?

Ich überprüfe die Korrelation zwischen den Prädiktoren und Y und Drop-Prädiktoren, die eine niedrige Korrelation mit Y haben. Jetzt verwende ich eine Kreuzvalidierung zwischen Y und den übrigen Prädiktoren, um ein logistisches Regressionsmodell zu trainieren.

Was ist falsch an dieser Methode?

Antwort

1

Es gibt viele mögliche Probleme damit, die in einer sehr langen Antwort landen würden - ich werde nur zwei hervorheben, die ich für am wichtigsten halte und von denen man die "Schlagworte" verwenden kann, um nachdenken zu können noch unklar:

  1. Das Löschen von Features basierend auf ihrer Feature-Ziel-Korrelation ist im Wesentlichen eine Form der Feature-Filterung. Es ist wichtig zu verstehen, dass die Feature-Filterung die Vorhersage-Performance nicht unbedingt verbessert. Denke z.B. von 2 Features in AND oder OR-Konfiguration auf die Zielvariable, und nur zusammen ermöglicht eine korrekte Vorhersage der Zielgröße. Die Korrelation dieser Merkmale mit dem Ziel wird gering sein, aber das Fallenlassen dieser Merkmale kann Ihre Vorhersage-Leistung sehr stark verringern. Neben Feature-Filtern gibt es Feature-Wrapper, mit denen Sie im Wesentlichen eine Teilmenge von Features mit einem Modell verwenden und die Vorhersage-Performance des Modells auswerten. Im Gegensatz zu Feature-Filtern, die nur die Features und das Ziel betrachten, betrachten Feature-Wrapper die tatsächliche Modellleistung. Übrigens: Wenn Sie Feature-Filter basierend auf Feature-Korrelationen verwenden, möchten Sie möglicherweise nicht nur Features mit geringer Feature-Ziel-Korrelation verwerfen, sondern auch Features mit hoher Inter-Feature-Korrelation (da solche Features einfach nicht viel Neues enthalten) Informationen überhaupt).

  2. Wenn Sie Ihre Featureauswahl (z. B. die Menge an Informationen/Varianz, die Sie in Ihren Daten beibehalten möchten, die Anzahl der Features, die Sie behalten möchten, die Höhe der Korrelation, die Sie zulassen) und Sie optimieren möchten Tun Sie dies außerhalb Ihrer Kreuzvalidierung und Resampling-Ansatz, werden Sie wahrscheinlich mit übermäßig optimistischen Fehlerschätzungen Ihres endgültigen Modells enden. Dies liegt daran, dass Sie, wenn Sie die CV-Prozesse nicht berücksichtigen, am Ende eine "beste" Konfiguration auswählen, die nicht korrekt (= unabhängig) geschätzt wurde und daher zufällig nur gut gewesen wäre. Wenn Sie also den Fehler richtig schätzen wollen, sollten Sie Ihre Feature-Auswahl auch in den CV-Prozess einbeziehen.