2016-05-24 17 views
2

Wie erhält man ein Konfidenzintervall oder ein Maß für die Vorhersageverteilung, wenn xgboost für die Klassifizierung verwendet wird?Wie erhält man ein Konfidenzintervall oder ein Maß für die Vorhersageverteilung, wenn xgboost für die Klassifizierung verwendet wird?

Wenn beispielsweise xgboost die Wahrscheinlichkeit eines Ereignisses auf 0,9 schätzt, wie kann das Vertrauen in diese Wahrscheinlichkeit erhalten werden?

Wird dieses Vertrauen auch als heteroskedastisch angenommen?

Antwort

2

Um Konfidenzintervalle für das xgboost-Modell zu erstellen, sollten Sie mehrere Modelle trainieren (Sie können dafür Bagging verwenden). Jedes Modell erzeugt eine Antwort auf die Testprobe - alle Antworten bilden eine Verteilung, aus der Sie Konfidenzintervalle mithilfe von Basisstatistiken einfach berechnen können. Sie sollten eine Antwortverteilung für jede Testprobe erstellen.

+0

Ich schlage vor, 100 Modelle zu fahren (je mehr desto besser) und prüfen, in welchem ​​Bereich 95% der Werte liegen. Die Antwortvariable ist homoskedastisch. – pplonski

+0

Der Mittelwert und die Standardabweichung der Vorhersagen stimmen NICHT mit einem Konfidenzintervall überein. – michel

+0

Natürlich sind Mittelwert und Standard der Vorhersagen eine andere Sache als Konfidenzintervalle - die Frage war, wie Konfidenzintervalle zu berechnen sind, und ich gab ein Rezept dafür – pplonski