Sagen, ich habe eine kategorische Funktion, Farbe, die die WerteKann sklearn zufällige Gesamtstruktur direkt kategorische Funktionen behandeln?
[ ‚rot‘, ‚blau‘, ‚grün‘, ‚Orange‘] etwas,
und ich möchte es verwenden, um vorherzusagen, nimmt in einem zufälligen Wald. Wenn ich es ein-hot kodiere (d. H. Ich ändere es in vier Dummy-Variablen), wie sage ich sklearn, dass die vier Dummy-Variablen wirklich eine Variable sind? Genauer gesagt, wenn sklearn nach dem Zufallsprinzip Merkmale auswählt, die an verschiedenen Knoten verwendet werden sollen, sollte es entweder die roten, blauen, grünen und orangefarbenen Dummies zusammen umfassen, oder es sollte keine von ihnen enthalten.
Ich habe gehört, dass es keine Möglichkeit gibt, dies zu tun, aber ich würde mir vorstellen, dass es einen Weg geben muss, mit kategorischen Variablen umzugehen, ohne sie willkürlich als Zahlen oder etwas Ähnliches zu kodieren.
Dies ist seit 2014 eine nützliche und seit langem bestehende Anfrage auf sklearn. Eine Überlegung war, ob sie die Implementierung der neuen [pandas Categorical] (http://pandas.pydata.org/pandas-docs/stable /categorical.html) oder generisches numpy. – smci