Hauptfrage: Wie kombiniere ich verschiedene randomForest in Python und Scikit-lernen?parallele Generierung von zufälligen Wäldern mit scikit-learn
Ich verwende derzeit das randomForest-Paket in R, um Randomforest-Objekte mithilfe von Elastic Map Reduce zu generieren. Dies soll ein Klassifizierungsproblem beheben.
Da meine Eingabedaten zu groß sind, um in den Speicher auf einer Maschine zu passen, sample ich die Daten in kleinere Datensätze und erzeuge zufällige Gesamtstrukturobjekte, die eine kleinere Gruppe von Bäumen enthalten. Ich kombiniere dann die verschiedenen Bäume miteinander unter Verwendung einer modifizierten Kombinationsfunktion, um ein neues zufälliges Waldobjekt zu erzeugen. Dieses zufällige Gesamtstrukturobjekt enthält die Feature-Wichtigkeit und den endgültigen Satz von Bäumen. Dies beinhaltet nicht die oob Fehler oder Stimmen der Bäume.
Während dies in R gut funktioniert, möchte ich in Python mit scikit-learn dasselbe tun. Ich kann verschiedene zufällige Waldobjekte erstellen, aber ich habe keine Möglichkeit, sie zu einem neuen Objekt zu kombinieren. Kann mir jemand auf eine Funktion hinweisen, die die Wälder kombinieren kann? Ist das mit scikit-learn möglich?
Hier ist der Link zu einer Frage zu diesem Prozess in R: Combining random forests built with different training sets in R.
Bearbeiten: Das resultierende zufällige Gesamtstrukturobjekt sollte die Bäume enthalten, die für die Vorhersage und auch für die Merkmalsbedeutung verwendet werden können.
Jede Hilfe wäre willkommen.
Wenn das Ziel Vorhersage gibt es dann keine Notwendigkeit, verschiedene Modelle kombinieren. Sie können die Vorausberechnung durch separate Modelle vornehmen und dann nur die Ergebnisse kombinieren. – DrDom
Vereinbaren Sie mit @DrDom, es gibt viele Möglichkeiten zum Ensemble-Modelle. Details darüber, wie Sie es tun möchten, sind ziemlich wichtig. – David
@DrDom Ich stimme zu, dass, wenn es nur Vorhersagen waren, ich die Ergebnisse kombinieren kann. Aber ich interessiere mich nicht nur für Vorhersagen, sondern auch für die variable Bedeutung der Features. – reddy