Ich baue ein Regressionsmodell mit mehreren Datums- und numerischen Variablen. Ich überprüfe kurz eine der DatumsvariablenVorhersagekraft der Datumvariablen reduziert sich, wenn von as.Datum zu as.numeric geändert wird
lm.fit = lm(label ~ Firstday, data = rawdata)
summary(lm.fit)$r.squared
, um ihren prädiktiven Einfluss auf das Modell zu messen. Dies entspricht 41% der Varianz. Ich habe nun versucht, das Datum in numerisch zu ändern, damit ich besser mit der Variablen arbeiten kann. Ich habe den Befehl
Doing dies reduziert die Varianz zu 10% - was ist nicht das, was ich will. Was mache ich falsch und wie gehe ich vor?
Ich habe mir https://stats.stackexchange.com/questions/65900/does-it-make-sense-to-use-a-date-variable-in-a-regression angesehen, aber die Antwort ist mir nicht klar.
Edit 1:
Ein reproduzierbares Codebeispiel von dem, was ich tat, ist unten gezeigt:
label = c(0,1,0,0,0,1,1)
Firstday = c("2016-04-06", "2016-04-05", "2016-04-04",
"2016-04-03", "2016-04-02", "2016-04-02","2016-04-01")
lm.fit <- lm(label ~ Firstday)
summary(lm.fit)$r.squared
[1] 0.7083333
On numerischer Wechsel:
Firstday = as.numeric(as.POSIXct(Firstday, format="%Y-%m-%d"))
ich jetzt
lm.fit <- lm(label ~ Firstday)
summary(lm.fit)$r.squared
[1] 0.1035539
Können Sie bitte Daten und/oder Code enthalten, der uns mit einem [reproduzierbaren Beispiel] liefert (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r- reproduzierbares Beispiel)? –