class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None)
Ich verwende ein zufälliges Waldmodell mit 9 Proben und etwa 7000 Attributen. Von diesen Samples gibt es 3 Kategorien, die mein Klassifikator erkennt.Wie können Parameter in der Random Forest-Umgebung mithilfe von Scikit Learn optimiert werden?
Ich weiß, dass dies weit von idealen Bedingungen entfernt ist, aber ich versuche herauszufinden, welche Attribute in Feature-Vorhersagen am wichtigsten sind. Welche Parameter würden am besten für die Optimierung der Feature-Wichtigkeit optimiert?
Ich versuchte verschiedene n_estimators
und bemerkte, dass die Menge der "signifikanten Merkmale" (d. H. Werte ungleich null in der feature_importances_
-Array) drastisch erhöht.
Ich habe die Dokumentation gelesen, aber wenn jemand Erfahrung darin hat, würde ich gerne wissen, welche Parameter am besten zu stimmen sind und eine kurze Erklärung warum.
vielen dank! Was ich vorher gemacht habe, war die iterative Instantiierung eines Modells, wobei die Nicht-Null-Attribute des Arrays "feature_importances_" genommen wurden, indem sie zu einem Zähler addiert wurden, wobei die populärsten genommen wurden. Ist das eine naive Art? Sollte ich es mehr auf variable Bedeutung stützen. –