2016-04-09 9 views
0

Ich verwende WEKA mit dem Datensatz "weather.arff" und dann habe ich den Naive-Bayes-Klassifikator mit der 10-fachen Kreuzvalidierung angewendet, wie Sie in der gegebenen Momentaufnahme sehen können. Ich verstehe so ziemlich alles außer den Dingen, die ich auf dem Bild als rot markiert habe.Kann mir jemand erklären was genau diese Ausgabe sagt?

Es gibt 9(Yes)+ 5(No) = 14 alle zusammen, aber hier überschreiten diese Summen die Summe. Und was ist das yes(0.63) und No(0.38) bedeuten? Sind sie mit der Leistung des Klassifikators nach 10-fachem Lebenslauf verbunden?

outlook 
    sunny    3.0  4.0 
    overcast   5.0  1.0 
    rainy    4.0  3.0 
    [total]   12.0  8.0 

Diese Summe ist hier 20.0, aber wir haben 14 Instanzen? was zählt diese Sunny, Overcast und regnerischen Yes und No? Woher kommen sie?

Was ist diese gewichtete Summe? Wie berechnet man und wie verhält es sich mit NB?

Click Here to see the picture

Antwort

0

Ich habe die Antwort auf meine Frage gefunden. Dieses Problem wird "Zero Frequency Problem" genannt und was WEKA tut ist, dass es 1 zu jedem Attribut addiert. Der Grund ist, weil 0 Wahrscheinlichkeiten vermieden werden. Andernfalls, wenn die Wahrscheinlichkeiten multipliziert werden, wird die ganze Wahrscheinlichkeit zu 0 werden. Tatsächlich führt Nullwahrscheinlichkeit zu keiner neuen Information über den Fall. Darüber hinaus muss es nicht mit einer Reihe von "Cross Validation" Iterationen oder CV-Performance-Schätzungen tun.

outlook    Yes   No 
    sunny    (2+1)=3.0  (3+1)=4.0 
    overcast   (4+1)=5.0  (0+1)=1.0 
    rainy    (3+1)=4.0  (2+1)=3.0 
    [total]    12.0   8.0 

Actual Instances = 9 + 5 = 14

Eine weitere wichtige Sache ist, dass WEKA dies tut, um alle Attribute, in diesem Fall Klar, Temperatur, Luftfeuchtigkeit und Windy.

0

Es gibt eine Erklärung der 10-fache Kreuzvalidierung in Cross Validation in Weka

sind 10 zufällig ausgewählten Gruppen von Daten in 90% Trainingsdaten und 10% Testdaten aufgeteilt. Mit 14 Datenzeilen, mit denen zu arbeiten ist, werden wahrscheinlich 12 Zeilen für das Training und 2 Zeilen für das Testen benötigt. Nach dem Ausführen aller 10 Tests wird es 20 Ergebnisse geben. Das ist sinnvoll für die Daten über den Ausblick, aber die insgesamt 18 für windig bringt diese Theorie in Frage.

Ich glaube, dass die 0,63 und 0,38 am oberen Rand des Bildes den Prozentsatz der Ja und Nein Antworten aus den 10 Tests darstellen.