Ich habe eine Reihe von Bäumen, beim Drucken sind sie 7 Seiten lang. Ich musste die Daten neu ausgleichen und die Zweige mit der höchsten Häufigkeit untersuchen, um zu sehen, ob sie sinnvoll sind - ich muss eine Abbruchrate für verschiedene Cluster identifizieren.Gehen Sie einen CHAID-Baum R - müssen nach Anzahl der Instanzen sortieren
Angesichts der Daten ist so lang, was ich brauche, um die größten Zweige zu haben, und dann kann ich diese validieren, anstatt 210 Zweige manuell zu durchlaufen. Ich werde viele Bäume haben, also muss ich das automatisieren, um die wichtigen Ergebnisse zu sehen.
Beispielcode zu verwenden:
library(CHAID)
updatecars<-mtcars
updatecars$cyl<-as.factor(updatecars$cyl)
updatecars$vs<-as.factor(updatecars$vs)
updatecars$am<-as.factor(updatecars$am)
updatecars$gear<-as.factor(updatecars$gear)
plot(carsChaid)
carsChaid<-chaid(am~ cyl+vs+gear, data=updatecars)
carsChaid
Wenn Sie diese Daten zu drucken, Sie sehen, n = 15 für die erste Gruppe. Ich brauche einen Tisch, wo ich diesen Wert sortieren kann.
Was ich brauche, ist eine Entscheidungsbaumtabelle mit den Variablenwerten und der Nummer innerhalb jeder Gruppe aus der Baumstruktur. Dies ist nicht genau das gleiche wie diese Antwort Walk a tree wie es nicht die Zahl innerhalb gibt, aber ich denke, es ist in der Richtung.
kann jemand helfen,
Danke,
James