2016-06-24 6 views
-2

Ich mache eine zufällige Gesamtstruktur mit Sklearn in Python.
Ich versuche, die Punktzahl jeder Modalität für ein Attribut zu erhalten.
Zum Beispiel, wie können wir im Titanen-Datensatz die Punktzahl von jeder Modalität der Pclass-Variable erhalten?
DankFunktion wichtig für jede Modalität

Antwort

0

Die pClass Variable ist ein kategorische variabel. Dies bedeutet, dass es 2 oder mehr diskrete Werte annimmt. Für solche Variablen wird immer empfohlen, sie unter Verwendung der One-Hot Kodierung darzustellen. Zum Beispiel, wenn Ihre PClass-Variable 3 mögliche Werte, unteren, mittleren und oberen, dann derzeit Sie würden sie als 0, 1 oder 2 kodieren. Das Problem mit diesem Ansatz ist, dass in einigen Klassifikatoren dieser Ansatz wird stellen Sie eine natürliche Bestellung, dass oberen>unteren. Daher ist die am häufigsten verwendete Strategie, sie als 3 boolesche Funktionen zu kodieren. Statt einer Funktion haben Sie jetzt drei Funktionen. Untere wird als [1 0 0], Mitte als [0 1 0] und obere als [0 0 1] dargestellt.

Da Sie scikit-learn verwenden, kann dies von der OneHotEncoder Klasse durchgeführt werden. Das Beispiel in der scikit-learn-Dokumentation hat ein anschauliches Beispiel.

Jetzt, wenn Sie diese als die Funktionen zu Ihrem zufälligen Wald übergeben und es trainieren. Mit clf.feature_importances_ können Sie die Feature-Wichtigkeit leicht ermitteln. Da Sie jetzt für jede Modalität ein Feature verwenden, können Sie leicht die Wichtigkeit für jede Feature-Modalität ermitteln.

Hoffe, dass hilft.