8

Ich habe ein Klassifizierungsproblem in meiner Hand, das ich mit einem maschinellen Lernalgorithmus ansprechen möchte (Bayes, oder Markovian wahrscheinlich, die Frage ist unabhängig vom zu verwendenden Klassifikator) . Angesichts einer Reihe von Trainingsinstanzen suche ich nach einer Möglichkeit, die Leistung eines implementierten Klassifikators zu messen, wobei das Problem der Datenüberlagerung berücksichtigt wird.Messung der Leistung des Klassifikationsalgorithmus

Das heißt: wenn ich N [1..100] Trainingsproben, wenn ich den Trainingsalgorithmus auf jedem der Proben ausführen, und verwenden Sie diese sehr ähnliche Proben, um Fitness zu messen, könnte es in ein Datenüberlagerungsproblem stecken - Der Klassifikator wird die genauen Antworten für die Trainingsinstanzen kennen, ohne viel Vorhersagekraft zu haben, wodurch die Fitnessergebnisse nutzlos werden.

Eine naheliegende Lösung wäre die Trennung der handmarkierten Proben in Training und Testproben; und ich würde gerne über Methoden lernen, die die statistisch signifikanten Proben für das Training auswählen.

Whitepaper, Buchzeiger und PDFs werden sehr geschätzt!

Antwort

14

Sie könnten dafür 10-fold Cross-validation verwenden. Ich glaube, es ist ein ziemlich standardmäßiger Ansatz für die Bewertung des Klassifikationsalgorithmus.

Die Grundidee besteht darin, Ihre Lernbeispiele in 10 Teilmengen aufzuteilen. Verwenden Sie dann eine Teilmenge für Testdaten und andere für Zugdaten. Wiederholen Sie dies für jede Teilmenge und berechnen Sie die durchschnittliche Leistung am Ende.

+3

http://en.wikipedia.org/wiki/Root-mean-square_error_of_cross-validation#K-fold_cross-validation (Links direkt auf k-fach Kreuzvalidierung innerhalb der Wiki-Artikel Sie verbunden sind) – JoeCool

2

Wie Mr. Brownstone sagte, ist die 10-fache Cross-Validierung wahrscheinlich der beste Weg. Ich musste vor kurzem die Leistung einer Reihe von verschiedenen Klassifizierern für diese I Weka bewerten. Mit einer API und einer Vielzahl von Tools, mit denen Sie die Leistung vieler verschiedener Klassifikatoren problemlos testen können.