An einem Knoten, für kategorische Features, versuche ich derzeit alle (2^m -2)/2 Möglichkeiten, die m verschiedene Werte des Features in zwei Gruppen zu teilen. Alle Samples mit demselben Wert für ein Feature werden zusammen als Gruppe verschoben, wenn dieses Feature berücksichtigt wird.Strategien zum Umgang mit kategorialen Merkmalen für Entscheidungsbäume?
Das Problem ist, wenn m 35 (Länder zum Beispiel) ist, werde ich 17 Trillion Splits versuchen müssen.
Gibt es alternative Möglichkeiten, kategorische Funktionen zu behandeln?
Suche nach "Partitionierung nominaler Attribute in Entscheidungsbäumen" von Don Coppersmith et al. (Ja, das ist _the_ [Don Coppersmith] (https://en.wikipedia.org/wiki/Don_Coppersmith). :-) – blazs