Ich versuche eine Korrelationsmatrix aus mehreren Werten zu berechnen. Diese Werte enthalten einige "Nan" -Werte. Ich benutze numpy.corrcoef. Für Element (i, j) der Ausgangskorrelationsmatrix möchte ich, dass die Korrelation unter Verwendung aller Werte berechnet wird, die sowohl für die Variable i als auch für die Variable j existieren.numpy corrcoef - Korrelationsmatrix berechnen und dabei fehlende Daten ignorieren
Das ist, was ich habe jetzt:..
In[20]: df_counties = pd.read_sql("SELECT Median_Age, Rpercent_2008, overall_LS, population_density FROM countyVotingSM2", db_eng)
In[21]: np.corrcoef(df_counties, rowvar = False)
Out[21]:
array([[ 1. , nan, nan, -0.10998411],
[ nan, nan, nan, nan],
[ nan, nan, nan, nan],
[-0.10998411, nan, nan, 1. ]])
Zu viele nan :(
Es erlaubt mir nicht, den Post zu bearbeiten, aber die erste Zeile im Code-Block sollte lauten: "... as pd", anstatt "... as np". – WindChimes
Epische Antwort! Sie haben mir gerade dabei geholfen, mit fehlenden Daten umzugehen * und * eine verschachtelte for-Schleife aus meinem Code entfernt. Vielen Dank! –