2016-06-08 24 views
0

Ich arbeite am Titanic-Datensatz. Ich versuche, in der CABIN-Spalte Leerzeichen einzufügen. Ich habe den ersten Buchstaben aus CABIN-Spaltenwerten extrahiert und diese dann in die CABIN_NEW-Spalte geschrieben. Danach verwende ich rpart für die Vorhersage, aber irgendwie jedes Mal, wenn ich den Code unten ausführe, nimmt R viel Zeit in Anspruch (noch nicht einmal beendet, jedes Mal muss ich es beenden).rpart Ausführung in R Studio

DATAset hat 1309 Zeilen und die Spalten, die ich verwende, sind unten im Code. Das System verwende ich läuft auf 4 GB Ram, i5-Prozessor und Windows 7.

combifit <- rpart(Cabin_New ~ Pclass + Sex + Age + SibSp + Parch + Fare + Embarked + Title 
        + FamilySize + Surname + FamilyID, 
        data = combi[!is.na(combi$Cabin_New),], method = 'class') 

Antwort

0

Ich sehe, dass Sie eine Menge Faktor Variablen verwendet haben. Bitte prüfen Sie, wie viele Faktorstufen in jedem Faktor vorhanden sind. Wenn das hoch ist, sagen wir für den Nachnamen, wenn es 100 ist, dann muss R 100 Variablen erstellen und so weiter für alle anderen Faktoren. Also meine Vermutung ist, dass rpart aufgrund dieser Faktorvariablen viele Variablen untersuchen muss, um über die Aufteilung zu entscheiden. Daher wird viel Zeit in Anspruch nehmen.

las auch ein wenig auf rpart.control, wie Anzahl des aufspaltet, das tut, hängt von den Parametern, die an die rpart rpart .Für Beispiel geben werden cp Ein solcher Parameter ist. Sein Standardwert ist 0,01. Versuchen Sie, den Wert von 0,5 auf 0,1 zu ändern. Spielen Sie ähnlich mit anderen Parametern herum, und Sie können rpart schneller ausführen.