2016-05-26 4 views
0

XGBoost generiert eine Liste mit Vorhersagen für den Testdatensatz. Meine Frage ist, wie kann ich die generierten Vorhersagen den tatsächlichen Testdateizeilen zuordnen? Kann man streng davon ausgehen, dass die n-te Vorhersage der n-ten Datenreihe entspricht? XGBoost nutzt Multi-Threading für seine Operationen. In einer solchen Einstellung kann also darauf vertraut werden, dass die Vorhersageergebnisse streng auf die Testdatenzeilen abgebildet werden. Idealerweise wäre es wirklich toll gewesen, wenn es eine Möglichkeit gegeben hätte, die Vorhersagen mit einer Zeilenkennung aus der Testdatendatei zu kommentieren?Wie werden XGBoost-Vorhersagen den entsprechenden Datenzeilen zugeordnet?

Ich verwende dieses Beispiel und arbeite mit DMatrix-Datenformat von XGBoost. https://github.com/dmlc/xgboost/tree/master/demo/binary_classification

Antwort

0

Ich bin mir nicht sicher, ob es streng sicher ist aber basierend auf meiner Erfahrung funktioniert diese Annahme. Auch für die meisten Code-Snippets, die xgboost verwenden, habe ich auf Kaggle-Wettbewerben like this one gesehen, Leute machen diese gleiche Annahme und es funktioniert. Kurz gesagt, Sie können sicher sein, dass es funktioniert, jedoch habe ich nicht in die Dokumentation gegraben und so kann ich nicht sagen, dass es die ganze Zeit funktioniert.