Ich habe ein Klassifizierungsproblem in meiner Hand, das ich mit einem maschinellen Lernalgorithmus ansprechen möchte (Bayes, oder Markovian wahrscheinlich, die Frage ist unabhängig vom zu verwendenden Klassifikator) . Angesichts einer Reihe von Trainingsinstanzen suche ich nach einer Möglichkeit, die Leistung eines implementierten Klassifikators zu messen, wobei das Problem der Datenüberlagerung berücksichtigt wird.Messung der Leistung des Klassifikationsalgorithmus
Das heißt: wenn ich N [1..100] Trainingsproben, wenn ich den Trainingsalgorithmus auf jedem der Proben ausführen, und verwenden Sie diese sehr ähnliche Proben, um Fitness zu messen, könnte es in ein Datenüberlagerungsproblem stecken - Der Klassifikator wird die genauen Antworten für die Trainingsinstanzen kennen, ohne viel Vorhersagekraft zu haben, wodurch die Fitnessergebnisse nutzlos werden.
Eine naheliegende Lösung wäre die Trennung der handmarkierten Proben in Training und Testproben; und ich würde gerne über Methoden lernen, die die statistisch signifikanten Proben für das Training auswählen.
Whitepaper, Buchzeiger und PDFs werden sehr geschätzt!
http://en.wikipedia.org/wiki/Root-mean-square_error_of_cross-validation#K-fold_cross-validation (Links direkt auf k-fach Kreuzvalidierung innerhalb der Wiki-Artikel Sie verbunden sind) – JoeCool