2016-04-05 13 views
1

ROC-Kurven zeichnen TPR vs. FPR und variieren die Schwellenwerte basierend auf der Rangfolge der Wahrscheinlichkeiten des Trainingssatzes. Der Schwellenwert, der ausgewählt wird, ist die Wahrscheinlichkeit, die mit dem Punkt in der oberen linken Ecke verknüpft ist. Das maximiert im Grunde die TPR und minimiert die False-Positive-Rate.Wie kann ich die ROC-Kurve wechseln, um die falsche negative Rate zu optimieren?

Aber sagen wir, meine Anwendung spricht über die Minimierung falsch negativer Rate? Wie würde sich diese Kurve dann ändern? Wie wäre es mit einem Gleichgewicht zwischen den beiden?

+0

ROC-Kurven auswähle keine Schwelle, sie nur vs FPR ihre TPR anzuzeigen. Es gibt keine integrierte Schwellenwertauswahl. – Calimo

+1

Der Schwellenwert in der oberen linken Ecke minimiert nicht die FPR gegenüber der FNR. Es ist nur ein Punkt mit einer guten Balance von TP und FP: Wenn Sie * no * FP haben wollten, könnten Sie Ihren Schwellwert auf 0 setzen, aber dann hätten Sie auch kein TP (und viele FN, und sowieso ein ziemlich nutzloser Klassifikator)).Wenn Sie möchten, dass Ihr FN mehr Gewicht als Ihr FP hat, d. H. Dass Sie mehr bestrafen, verwenden Sie einfach eine Verlustmatrix, wenn Sie Ihren Klassifikator anpassen. Nicht viele Bibliotheken akzeptieren es jedoch. Welche Art von Modell verwenden Sie? – lrnzcig

+0

Vielen Dank für Ihre Kommentare. Es war nur eine Frage, die ich unabhängig vom Modell hatte. Einige Anwendungen haben ein höheres Gewicht bei den falschen Negativen. Ich werde mich mit der Anwendung einer Verlustmatrix befassen. Aber von Ihrem Kommentar würde der ROC-Plan nicht helfen, FNs auszugleichen. Vielleicht, wenn ich TN und FN zeichne und diese AUC erreiche und die beiden AUCs zusammen gewichte? – SriK

Antwort

2

Es scheint mir, dass Sie etwas falsch verstehen, was eine ROC-Kurve ist.

Eine ROC-Kurve Plots TPR vs FPR als Schwellenwert variiert. Als Ergebnis sind ROC-Kurven tatsächlich 3-dimensionale Graphen, die die Beziehung zwischen 3 Variablen aufzeichnen: FPR, TPR und Threshold. Jeder Punkt in der Grafik gibt an, was der tatsächliche TPR und der FPR für einen bestimmten Schwellenwert sind. Die untere linke Ecke des Diagramms spiegelt immer einen Schwellenwert von 1 wider, während die obere rechte Ecke einen Schwellenwert von 0 widerspiegelt.

ROC-Kurven haben zwei übliche Verwendungszwecke: zwei verschiedene Modelle unabhängig vom Schwellenwert zu vergleichen und zu helfen Wählen Sie den richtigen Schwellenwert aus. Der "richtige Schwellenwert" für eine Predictive Analytics-Anwendung variiert je nach dem spezifischen Problem, das Sie angreifen, ziemlich groß. Im Allgemeinen können Sie jedoch eine ROC-Kurve verwenden, um einen Schwellenwert mit einem akzeptablen TPR/FPR-Kompromiss für Ihre spezifische Anwendung auszuwählen . Es ist selten der Fall, dass die einfache Auswahl des Grenzwerts für den Punkt, der der oberen linken Ecke am nächsten ist, das ideale Ergebnis ergibt.

Sobald Sie einen Schwellenwert ausgewählt haben, der aus der ROC-Kurve ideal erscheint, können Sie die Konfusionsmatrix und andere Bewertungsmetriken (Präzision, Abruf, Genauigkeit, F1 usw.) untersuchen, um den Schwellenwert weiter zu bestimmen.

Um Ihre direkte Frage zu beantworten, sind Sie richtig, dass ROC-Kurven nicht direkt die FNR zeigen. In diesem Fall möchten Sie vielleicht ein Empfindlichkeits-/Spezifitätsdiagramm verwenden, das TPR gegenüber TNR ähnlich wie die ROC-Kurve darstellt. Es gibt keine Standard-Bewertungsmethode, von der ich weiß, dass sie FNR direkt betrachtet. Stattdessen wechsle ich normalerweise einfach die "positiven" und "negativen" Bezeichnungen in meine Daten und zeichne die ROC-Kurve neu. Dies ergibt (effektiv) TNR gegen FNR.

1

Aber sagen wir, meine Anwendung spricht über die Minimierung falsch negativer Rate? Wie würde sich diese Kurve dann ändern?

Diese Kurve würde genau gleich bleiben. Aber Sie würden nicht mehr den oberen linken Punkt wählen (linker Kreis in picture). Stattdessen würden Sie versuchen, zu maximieren true positive rate (1-FNR). Dies wäre wirklich maximiert, wenn Sie alle Punkte als positiv zuweisen. Da dies der Klassifizierung widerspricht (= dumm ist), würden Sie einen Punkt wählen, der näher an der oberen rechten Ecke der ROC liegt (rechts im Bild).

Wie wäre es mit einem Gleichgewicht zwischen den beiden?

Ein Punkt zwischen dem oben links und oben rechts (Mitte in Bild)

three points on roc curve