Mit caret
Paket, wenn Datenpartition 75% Ausbildung und 25% Test erstellen, verwenden wir:Daten erstellen Partition in R
inTrain<- createDataPartition(y=spam$type,p=0.75, list=FALSE)
Hinweis: Daten-Set spam
genannt wird und Zielvariable type
benannt Meine Frage ist, was ist der Zweck der Einbeziehung y=spam$type
Argument?
Ist es nicht das Ziel der Erstellung von Datenpartitionen, einfach den gesamten Datensatz basierend auf dem Verhältnis zu teilen, das Sie für Training oder Testen benötigen? Warum muss dieses Argument in den Code aufgenommen werden?
nicht 100% aber ich glaube, das ist nur um den Befehl zu sagen, durch welche Variable Sie die Daten partitionieren. Ich bin mir nicht sicher, dass es von großer Bedeutung ist, außer zu klären, wie man partitioniert - einfacher für den Computer zu verstehen –
Woher hast du diese Funktion 'createDataPartition'? Was gibt 'str (inTrain)' aus? – aichao
@ a.powell Was meinst du mit "um zu sagen .. durch welche Variable partitionierst du die Daten?" Mein Verständnis von Partitionierung besteht einfach darin, die gesamten Daten zu teilen. Warum sollten wir darauf hinweisen, dass "Typ" meine Zielvariable in diesem Stadium ist? Verstehe ich konzeptionell die Idee der Datenpartitionierung falsch? – Aiden