2016-08-05 40 views
0

Ich habe eine Datendatei (1 Million Zeilen), die eine Ergebnisvariable als Status (Ja/Nein) mit drei kontinuierlichen Variablen und 5 nominalen Variablen (5 Kategorien in jeder Variablen) I hat Ich möchte das Ergebnis, dh den Status, vorhersagen. Ich wollte wissen, welche Art von Analyse gut für den Aufbau des Modells ist. Ich habe logit, probit, logistische Regression gesehen. Ich bin verwirrt, was zu beginnen und die Variablen zu analysieren, die eher für die Analyse nützlich sind.Modellanalyse IN R (Logistische Regression)

Datendatei: Geschlecht, Region, Alter, Unternehmen, Spezialität, jobrole, diag, Labors, Aufträge, Status

M, W, 41, PA, FPC, Assistent, code18,27,3, ja

M, Südwesten der USA, 65, CV, FPC, Arbeiter, code18,69,11, kein

M, Süd, 27, DV, IMC, Assistent, ungültig, 62,13, kein

M, Südwesten, 18, Lebenslauf, IMC, Arbeiter, Code8,6,1, ja

PS: R-Sprache verwenden. Jede Hilfe würde sehr geschätzt werden Vielen Dank!

+0

Wenn Sie mit der Modellauswahl die Hilfe benötigen, sollten Sie sich fragen, über [stats.se], wo statistische Fragen zum Thema sind (es spielt keine Rolle, dass du willst das "in R" machen. Sobald Sie wissen, welches Modell zu verwenden ist, sollten Sie in der Lage sein, zu suchen, wie man es in R macht. – MrFlick

+0

Versuchen Sie, nach multipler Regression mit Dummy-Variablen zu suchen, diese Frage ist besser für die Kreuzvalidierung geeignet. – Waqas

+0

Entscheidungsbaum-Algorithmen wie [C5.0] (https://cran.r-project.org/web/packages/C50/index.html) können bei binären Klassifikationsaufgaben, die eine Kombination von kontinuierlichen und nominalen Variablen beinhalten, sehr leistungsfähig sein. – RHertel

Antwort

2

Angesichts der drei beginnen meist ihre Analyse mit logistischen Regression.

Beachten Sie, dass Logistic und Logit die gleiche Sache sind.

Bei der Entscheidung zwischen Logistic und Probit wählen Sie Logistic.

Probit liefert normalerweise Ergebnisse schneller zurück, während Logistic eine bessere Kante für Interpretationsergebnis hat.

Jetzt, um Variablen zu regeln - Sie können die Anzahl der Variablen variieren, die Sie in Ihrem Modell verwenden werden.

model1 <- glm(status ~., data = df, family = binomial(link = 'logit')) 

Überprüfen Sie nun die Modellzusammenfassung und überprüfen Sie die Wichtigkeit der Prädiktorvariablen.

model2 <- glm(status ~ gender + region + age + company + speciality + jobrole + diag + labs, data = df, family = binomial(link = 'logit')) 

Wenn Sie die Anzahl der Variablen verringern, können Sie besser feststellen, welche Variablen wichtig sind.

Stellen Sie außerdem sicher, dass Sie zuvor eine Datenbereinigung durchgeführt haben.

Vermeiden Sie stark korrelierten Variablen ab, einschließlich, können Sie sie cor() mit überprüfen