2016-07-01 29 views
0

Ich habe ein Krebs-Datensatz mit 699 Zeilen und 11 Attributen (einschließlich Klassenattribut). Wie kann ich den Datensatz in Trainings- und Testdatensätze aufteilen? Ich kenne folgende Dinge. Sind sie wahr? (1) Auswahl Initial 150 Zeilen für die Prüfung und die verbleibenden 549 für die Ausbildung (2) Auswahl Initial 549 für die Ausbildung und die verbleibenden 150 zum TestenWie generiere ich Trainings- und Testdatensätze aus einem gegebenen Standarddatensatz von UCI

Weiterhin muss ich die Klasse gehören in beiden Datensätzen Attribute? Ist es auch notwendig, einen anderen Datensatz namens "VALIDATION DATASET" zu haben? Ich mache Klassifizierung mit SVM

Antwort

0

Ich habe ein Krebs-Datensatz mit 699 Zeilen und 11 Attribute (einschließlich Klassenattribut). Wie kann ich den Datensatz in Trainings- und Testdatensätze aufteilen? Ich kenne folgende Dinge.

Sind sie wahr? (1) Auswahl Initial 150 Zeilen für die Prüfung und die verbleibenden 549 für die Ausbildung (2) Auswahl Initial 549 für die Ausbildung und die verbleibenden 150 zum Testen

Keine der oben genannten Sinn macht für Datensatz von dieser Größe

Wie solch ein kleiner Datensatz ein einziger Split ist nicht genug. Sie werden mehrere Splits benötigen, beispielsweise unter Verwendung von:

  • Kreuzvalidierung (10 Splits ausreichen sollte)
  • Bootstrap-Methoden (wie 632+)
  • maaaany totaly Zufalls Splits (> 50)

Muss ich die Klassenattribute in beide Datensätze aufnehmen?

Beide parst (in jedem split) haben Etiketten

haben

Ist es auch notwendig, einen anderen Datensatz als "Validation DATASET" genannt zu haben? Ich tue Klassifikation mit SVM

Auch für solche kleine Datensatz, den Sie nicht in der Lage sein, einen guten Validierungsdatensatz haben (und Sie müssen es gültige Hyper für SVM wählen), so werden Sie tun müssen, um interne Kreuzvalidierung (oder internes Bootstraping etc.)