Ich habe folgende Frage: Ich habe einen Pandas-Datenrahmen, in dem fehlende Werte durch die Zeichenkette na
gekennzeichnet sind. Ich möchte einen Imputer laufen lassen, um die fehlenden Werte durch den Mittelwert in der Spalte zu ersetzen. Nach Angaben der sklearn Dokumentation, sollte der Parameter missing_values
mir helfen mit diesem:Python - SkLearn Drucker Verwendung
missing_values : integer or “NaN”, optional (default=”NaN”) The placeholder for the missing values. All occurrences of missing_values will be imputed. For missing values encoded as np.nan, use the string value “NaN”.
In meinem Verständnis bedeutet dies, dass, wenn ich
df = pd.read_csv(filename)
imp = Imputer(missing_values='na')
imp.fit_transform(df)
schreiben, das würde bedeuten, dass die imputer etwas in die ersetzt Datenrahmen mit dem na
Wert mit dem Mittelwert der Spalte. Stattdessen erhalte ich einen Fehler:
ValueError: could not convert string to float: na
Was bin ich falsch interpretieren? Ist das nicht, wie der Drucker funktionieren sollte? Wie kann ich die na
Strings durch den Mittelwert ersetzen, dann? Soll ich einfach ein Lambda dafür verwenden?
Vielen Dank!