2016-03-22 8 views
0

Ich habe einen großen Datensatz von fast 10000 Zeilen und 10 Spalten. Ich möchte mit diesem Paket eine Klassifizierung vornehmen. Aber jede Spalte hat viele (mehr als 50) Klassen. Also hängt das R einfach.Verwenden von Rpart-Paket auf großen Dataset

Welche Möglichkeiten habe ich, um den Umfang der Daten zu begrenzen oder die Anzahl der Klassen in jeder Spalte zu reduzieren?

Antwort

0

Dies wird als geschichtetes Sampling bezeichnet, bei dem der Anteil der Klassen beim Reduzieren des Datasets gleich bleiben soll. Verwenden Sie CreateDataPartition aus dem Caret-Paket.

table(iris$Species) 
library(caret) 
trainIndex <- createDataPartition(iris$Species, p = .8,list = FALSE,times = 1) 
table(iris[trainIndex,]$Species) 

Ersetzen Iris mit Ihrem Datasetnamen

+0

Mark als richtig, wenn es Ihr Problem löst. Danke –

+0

Lassen Sie mich wissen, wenn Zweifel in den Parametern. Hat es dein Problem gelöst? Markieren Sie die Antwort, wenn es funktioniert –