2013-07-09 8 views
5

Ist es möglich, RandomForests auf sehr kleine Datenmengen anzuwenden? Ich habe einen Datensatz mit vielen Variablen, aber nur jeweils 25 Beobachtungen. Zufällige Wälder produzieren vernünftige Ergebnisse mit niedrigen OOB-Fehlern (10-25%). Gibt es eine Faustregel bezüglich der minimalen Anzahl zu verwendender Beobachtungen? In der Tat ist eine der Response-Variablen unausgewogen, und wenn ich sie subsampling bin, werde ich mit einer noch kleineren Anzahl von Beobachtungen enden. Dank im VorausMindestanzahl der Beobachtung bei der Durchführung von Zufall Wald

+0

Wie viele Funktionen enthält das Trainingssatz? – jonnydedwards

+0

Es 33 Prädiktoren enthält und 4 Antwortvariablen – Oritteropus

+1

Prüfung [diese] (http://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimum-sample-size- (Ich sollte 4 MDEs durchführen) for-multiple-Regression) für Heuristiken. – jonnydedwards

Antwort

3

Absolut RF kann auf diese Art von Datensätzen (d.h. p> n) verwendet werden. In der Tat verwenden sie RF in Feldern wie Genomics, wo die Anzahl der Felder> = 20000 und es gibt nur eine sehr kleine Anzahl von Zeilen - sagen wir 10-12. Das gesamte Problem besteht darin, herauszufinden, welche der 20 k Variablen eine sparsame Markierung bilden würde (d. H. Die Merkmalsauswahl ist das gesamte Problem).

Ich habe keine ROTs über die Mindestgröße, außer wenn Ihr Modell nicht gut auf einer zurückgehaltenen Probe funktioniert (oder die Hold-One-Back-Kreuzvalidierung könnte in Ihrem Fall gut funktionieren), dann sollten Sie es versuchen etwas anderes.

Hoffe, das hilft