0

Nachdem ich viele Transformationen herausgefunden habe, die auf die Zielwerte (y-Spalte) eines Datensatzes angewendet werden können, wie Box-Cox-Transformationen, habe ich gelernt, dass lineare Regressionsmodelle mit normal verteilten Zielwerten trainiert werden müssen effizient sein. (https://stats.stackexchange.com/questions/298/in-linear-regression-when-is-it-appropriate-to-use-the-log-of-an-independent-va)Werden nichtlineare Regressionsalgorithmen besser funktionieren, wenn sie mit normal verteilten Zielwerten trainiert werden?

Ich würde gerne wissen, ob das gleiche für nichtlineare Regressions-Algorithmen gilt. Momentan habe ich gesehen, dass Leute auf Kaggle die Log-Transformation zur Abschwächung von Heteroskedastizität verwenden, indem sie xgboost verwenden, aber sie erwähnen nie, ob sie auch dazu verwendet wird, normal verteilte Zielwerte zu erhalten.

Ich habe versucht zu recherchieren und ich fand in Andrew Ng's Vorlesungsnotizen (http://cs229.stanford.edu/notes/cs229-notes1.pdf) auf Seite 11, dass die kleinste Quadrate Kostenfunktion, die von vielen linearen und nichtlinearen Algorithmen verwendet wird, unter Annahme von Normalverteilung abgeleitet wird der Fehler. Ich glaube, wenn der Fehler normal verteilt werden sollte, dann sollten die Zielwerte auch sein. Wenn dies zutrifft, sollten alle Regressionsalgorithmen, die die Funktion der kleinsten Quadrate verwenden, besser mit normal verteilten Zielwerten funktionieren.

Da xgboost die Funktion der kleinsten Quadrate für die Knotenaufteilung verwendet (http://cilvr.cs.nyu.edu/diglib/lsml/lecture03-trees-boosting.pdf - Folie 13), würde dieser Algorithmus möglicherweise besser funktionieren, wenn ich die Zielwerte mithilfe von Box-Cox-Transformationen zum Trainieren des Modells transformiere und dann inverse Box-Cox-Transformationen anwende auf dem Ausgang, um die vorhergesagten Werte zu erhalten. Wird dies theoretisch bessere Ergebnisse liefern?

+0

Wenn Daten aus einer linearen Funktion mit nicht-normalen Fehlern generiert wurden und Sie eine lineare Regression anwenden, ist die Anpassung nicht optimal, aber da es sich um einen konsistenten Schätzer handelt, reichen die Daten zur richtigen Antwort - Suche für konsistent innerhalb von https://en.wikipedia.org/wiki/Ordinary_least_squares. Wenn Sie die Daten so transformieren, dass die zugrunde liegende Kurve nicht mehr linear ist, gibt es für die lineare Regression keine Möglichkeit, die richtige Antwort an Sie zurückzugeben. – mcdowella

+0

Vielen Dank für die Antwort, aber die Hauptfrage betrifft die nichtlineare Regression. –

Antwort

1

Ihre Vermutung "Ich glaube, wenn der Fehler normal verteilt werden sollte, dann sollten die Zielwerte auch sein." ist völlig falsch. Deine Frage hat also überhaupt keine Antwort, da es keine gültige Frage ist.

Es gibt keine Annahmen über die Zielvariable als Normal.

Das Transformieren der Zielvariablen bedeutet nicht, dass die Fehler normal verteilt sind. In der Tat kann das die Normalität ruinieren.

0

Dies ist zu lang für einen Kommentar. Ich habe keine Ahnung, was das bedeuten soll: "Lineare Regressionsmodelle müssen mit normal verteilten Zielwerten trainiert werden, um effizient zu sein." Auf welche Weise effizient?

Lineare Regressionsmodelle sind globale Modelle. Sie passen einfach eine Oberfläche an die Gesamtdaten an. Da es sich bei den Operationen um Matrixoperationen handelt, hängt die Zeit zum "Trainieren" des Modells nur von der Größe der Daten ab. Die Verteilung des Ziels hat nichts mit der Leistungsfähigkeit des Modellbaus zu tun. Und es hat auch nichts mit Model-Scoring-Performance zu tun.

Da Ziele in der Regel nicht normalverteilt sind, würde ich sicherlich hoffen, dass eine solche Verteilung nicht für einen maschinellen Lernalgorithmus erforderlich ist, um effektiv zu arbeiten.

+0

Ich habe den Titel geändert, ich hoffe, Sie finden ihn prägnanter. Die Annahme von normalverteilten Zielwerten ergibt sich außerdem aus der Notwendigkeit, dass die Fehler (Residuen) normal verteilt sein sollten.Ich glaube, dass das Training des Modells mit nicht-gaußschen verteilten Zielwerten nicht-gaußverteilte vorhergesagte Werte ergeben wird. Ich halte es für sehr unwahrscheinlich, dass die lineare Kombination zweier nicht-gaußschen Variablen normalverteilte Variable (residual) ergibt, also die Annahme, dass Zielwerte normalverteilt sein sollten. Aber ich könnte mich irren, also korrigiere mich bitte, wenn ich es bin. –