Ich versuche, die höchsten Korrelationen für verschiedene Spalten mit Pandas zu finden. Ich weiß, kann Korrelationsmatrix mitPandas: Wie man die Eigenkorrelation von der Korrelationsmatrix löscht
df.corr()
bekomme ich weiß, ich kann die höchsten Korrelationen danach erhalten mit
df.sort()
df.stack()
df[-5:]
Das Problem ist, dass diese Korrelation enthält auch Werte für die Spalte mit der Säule (1) selbst . Wie entferne ich diese Spalten, die Korrelation mit Selbst enthalten? Ich weiß, dass ich sie entfernen kann, indem ich alle 1 Werte entferne, aber ich möchte das nicht tun, da es auch 1 Korrelationen geben könnte.
Sie könnten auch negative Werte für Korrelationen haben. Daher wäre es besser, sie auf einen Wert kleiner als -1 zu setzen. –
@ FabianRost Das ist ein ausgezeichneter Punkt. Ich werde aktualisieren. Vielen Dank! –
Vielleicht können Sie Beispiel hinzufügen 'df = pd.DataFrame ({'eins': [0.1, .32, .2, 0.4, 0.8], 'zwei': [. 23, .18, .56, .61,. 12], 'drei': [. 9, .3, .6, .5, .3], 'vier': [. 34, .75, .91, .19, .21], 'zive': [ 0.1, .32, .2, 0.4, 0.8], 'sechs': [. 9, .3, .6, .5, .3], 'Antrieb': [. 9, .3, .6, .5 .3]}) ' – jezrael