ich immer von gedacht habe, was ich gelesen, dass Kreuzvalidierung wie folgt durchgeführt:Kreuzvalidierung in Weka
In k-fache Kreuzvalidierung, ist die ursprüngliche Probe zufällig in k Teilproben aufgeteilt. Von den k Teilproben wird eine einzige Teilstichprobe als Validierungsdaten zum Testen des Modells beibehalten, und die verbleibenden k - 1 Teilproben werden als Trainingsdaten verwendet. Der Kreuzvalidierungsprozess wird dann k mal wiederholt (die Falten), wobei jede der k Teilproben genau einmal als Validierungsdaten verwendet wird. Die k ergibt sich aus den Faltungen können dann gemittelt werden (oder anderweitig kombinierte)
eine einzige Schätzung
So k Modelle gebaut werden und die letzte ist die durchschnittliche derer herzustellen. In Weka wird geschrieben, dass jedes Modell immer mit ALLEN Datensätzen erstellt wird. Wie funktioniert die Kreuzvalidierung in Weka? Wird das Modell aus allen Daten erstellt und bedeutet die "Kreuzvalidierung", dass k falte erstellt wird, dann wird jede Falte auf ihr ausgewertet und das endgültige Ausgabeergebnis ist einfach das gemittelte Ergebnis aus Falten?
Ich habe 2 Fragen: 1) Wenn es wie du sagtest, warum in Weka Guide geschrieben wird, dass in jedem Fall (Trainingssatz und Lebenslauf) das Modell immer aus allen Daten aufgebaut wird? Wie Sie in CV geschrieben haben, ist das endgültige Modell ein Durchschnitt von anderen 10 Modellen, richtig?2) Wenn "Das Modell, das Sie an diesem Punkt erhalten, der Durchschnitt aller 10 Modelle ist", wie ist es möglich, dass ich das Trainingssatz und den Lebenslauf als Validierung benutze, habe ich dieselben Modelle? (Hoffe, diese Fragen erscheinen nicht zu albern!) –
1. Dies bedeutet für jede Falte vollen Datensatz berücksichtigt. Es gibt einige Variationen dieser Standard-CV, bei denen ein Teil der Datensätze für einen separaten Test ausgegeben wird. 2. Was genau meinst du mit "gleiche Modelle bekommen"? –
Für "gleiche Modelle" meine ich, dass in der Ausgabe habe ich genau den gleichen Baum –