2016-06-10 8 views
1

Ich habe die F_Regressionstechnik für die Merkmalauswahl im Merkmalsauswahlmodul von sklearn gefunden. Ich konnte das Prinzip nicht verstehen. Die angegebene Beschreibung war -

Univariate lineare Regressionstests.
Schnelles lineares Modell zum sequentiellen Testen der Wirkung eines einzelnen Regressors für viele Regressoren. Dies erfolgt in 3 Schritten:F_Regression von sklearn.feature_selection

    1.Der Regressor von Interesse und die Daten sind orthogonal mit konstanten Regressoren.
    2. Die Kreuzkorrelation zwischen Daten und Regressoren wird berechnet.
    3. Es wird in einen F-Wert umgewandelt, dann in einen p-Wert.

Ich kann das nicht verstehen, bitte kann das jemand in Laiensprache erklären.

Antwort

2

Die Sprache in der Dokumentation ist ein wenig stumpf. Ich glaube, Daten beziehen sich auf die Antwort. Zuerst werden der gewählte Regressor und die Antwort in Bezug auf den Rest der Regressoren orthogonalisiert. Dies verringert jegliche möglicherweise vorhandene Multikollinearität. Dann wird die Korrelation zwischen dem gewählten Regressor und der Antwort berechnet. In einer univariaten Einstellung ist der Korrelationskoeffizient die Quadratwurzel von R^2, die in Form der F-Statistik geschrieben werden kann, die beim Testen der Gesamtbedeutung eines Modells verwendet wird (siehe auch: https://stats.stackexchange.com/questions/56881/whats-the-relationship-between-r2-and-f-test). Als nächstes wird die Korrelation in eine F-Statistik umgewandelt, der entsprechende p-Wert wird berechnet und F und p werden zurückgegeben. Wenn es mehr als einen Regressor gibt, wird dies für alle Regressoren einzeln durchgeführt.