2016-01-26 21 views
8

Ich habe mehrere Modelle für die binäre Klassifizierung von Dokumenten im Bereich Betrug vorbereitet. Ich habe den Log-Verlust für alle Modelle berechnet. Ich dachte, es würde im Wesentlichen die Zuverlässigkeit der Vorhersagen messen und der Log-Verlust sollte im Bereich von [0-1] liegen. Ich glaube, dass es ein wichtiges Maß in der Klassifizierung ist, wenn das Ergebnis - die Bestimmung der Klasse für Evaluierungszwecke nicht ausreichend ist. Wenn also zwei Modelle acc, recall und precision haben, die ziemlich nah beieinander liegen, aber eine niedrigere log-loss-Funktion hat, sollte sie ausgewählt werden, da keine anderen Parameter/Metriken (wie Zeit, Kosten) im Entscheidungsprozess vorhanden sind.Log-Verlust-Ausgabe ist größer als 1

Der Protokollverlust für den Entscheidungsbaum beträgt 1,57, für alle anderen Modelle liegt er im Bereich 0-1. Wie interpretiere ich dieses Ergebnis?

Antwort

20

Es ist wichtig, daran zu denken, dass der Protokollverlust keine Obergrenze hat. Log Verlust existiert auf dem Bereich [0,   ∞)

Von Kaggle wir eine Formel für die Log-Verlust finden.

Log Loss

In dem yij 1 ist für die korrekte Klasse und 0 für die anderen Klassen und pij die Wahrscheinlichkeit für diese Klasse zugeordnet ist.

Wenn wir uns den Fall schauen, wo die durchschnittliche log Verlust 1 übersteigt, ist es, wenn log (pij) < -1, wenn i die wahre Klasse. Dies bedeutet, dass die vorhergesagte Wahrscheinlichkeit für diese gegebene Klasse weniger als exp (-1) oder etwa 0,368 wäre. Wenn also ein logarithmischer Verlust größer als eins zu erwarten ist, kann das Modell nur eine Wahrscheinlichkeitsschätzung von 36% für die tatsächliche Klasse ergeben.

Wir können dies auch sehen, indem wir den Log-Verlust bei verschiedenen Wahrscheinlichkeitsschätzungen auftragen.

Log Loss curve

+0

vielen Dank für Ihre ausführliche Antwort! – OAK