wurde versucht, den RF-Klassifikator auf einem Datensatz von ~ 50.000 Einträge mit 20 oder so Etiketten, die ich denke, sollte in Ordnung sein, aber ich stolpern über die folgenden bei dem Versuch zu passen ...Random Forest Classifier Segmentierung Fehler
Der Datensatz wurde über den TfidfVectorizer und dann TruncatedSVD mit n = 100 zur Reduzierung der Dimensionalität übergeben. RandomForestClassifier wird mit n_jobs = 1 und n_estimators = 10 ausgeführt, um den minimalen Punkt zu finden, an dem es funktioniert. Das System läuft mit 4 GB RAM und RF hat in der Vergangenheit auf einem ähnlichen Datensatz mit viel höheren Schätzern usw. gearbeitet. Scikit-learn läuft mit der aktuellen Version 0.14.1.
Irgendwelche Tipps?
Danke
versuchen Sie es auf eine kleinere Menge von Daten oder eine niedrigere n. Sehen Sie nach, ob derselbe Fehler auftritt. Ich habe auch 4 GB RAM und ich habe zufällige Wälder auf einige ziemlich große Datensätze (nicht so groß) verwendet und habe diesen Fehler nie bekommen. Bitte sagen Sie mir, wenn Sie beim Absenken immer noch den gleichen Fehler erhalten. –
Sie sollten dies auf [sckikit bug tracker] (https://github.com/scikit-learn/scikit-learn/issues) melden, wenn es reproduzierbar ist. –
Ich würde versuchen, die Größe des von @RyanSaxe vorgeschlagenen Datensatzes zu reduzieren. Ich habe die RF auf Datensätze viel größer als das, aber hatte Zugriff auf eine sehr große Menge an RAM –