Frage aktualisiert !!
Ich habe 15 Spalten kategoriale Variablen und ich möchte die Korrelation zwischen ihnen. Der Datensatz ist 20.000+ lang und der Datensatz sieht wie folgt aus:Korrelation für mehrere kategoriale Variablen Tableau
state | job | hair_color | car_color | marital_status
NY | cs | brown | blue | s
FL | mt | black | blue | d
NY | md | blond | white | m
NY | cs | brown | red | s
Beachten Sie, dass der 1. Reihe und letzten Reihe NY
, cs
und s
wiederholt. Ich möchte diese Art von Mustern herausfinden. NY und CS ist stark korreliert. Ich muss die Kombination von Werten in den Spalten einstufen. Hoffe jetzt macht die Frage Sinn. Bitte beachten Sie, dass NICHT zählt NY
oder cs
ist. Ist ungefähr herauszufinden, wie oft NY
und blond
zusammen in der gleichen Zeile erscheint. Ich muss das für alle Werte nach Zeile tun. Hoffe, das macht jetzt Sinn.
Ich habe versucht, cor()
mit R zu verwenden, aber da dies kategoriale Variablen sind, funktioniert die Funktion nicht. Wie kann ich mit diesem Datensatz arbeiten, um die Korrelation zwischen diesen zu finden?
Können Sie erklären, was Sie mit 'cor()' zu messen versuchen? Zum Beispiel ist 'cor (c (" rot "," blau "), c (" rot "," gelb "))" höher als, gleich oder kleiner als "cor (c (" rot "," rot ") blau "), c (" rot "," braun "))'? –
Nein, ist nicht gewöhnlich. Für ID 1 habe ich 15 Farben, für ID 2 andere 15 Farben und ich habe 20.000 IDs. Farben wiederholen sich nicht nach ID. Ich möchte herausfinden, wie jede Farbe mit den anderen Farben korreliert. Mit 'cor()' liefert R eine Tabellenmatrix mit allen Variablen und wie jede Variable korreliert. Farbenvariable sind nicht gewöhnlich, sie sind nur kategorisch. Machen Sie Sinn, was ich versuche zu tun? – Gilbert
Ja, aber für 16 Variablen statt 2. – Gilbert