Ich arbeite derzeit mit Pandas auf einem Dataframe und nach dem Lesen einer CSV-Datei und Konvertieren einer bestimmten Spalte in Str, Pandas scheint alle Duplikate dieser Zeile in NaNs zu transformieren.Python Pandas - read_csv macht Duplikate zu NaN
bla = pd.read_csv(bla_path, sep=',',converters={'order_id':str})
und es gibt mir diese Ergebnisse:
internal_conversion_id order_id conversion_target_id \
0 85 9222 67
1 20 9224 65
2 20 NaN 65
3 20 NaN 65
4 33 9233 67
5 33 NaN 67
Weiß jemand, was ich fehle? Die ursprüngliche Datei enthält die Duplikate.
EDIT: Ich habe gerade überprüft - das passiert auch, wenn ich converters
nicht verwende.
EDIT 2: hier einige Zeilen aus dem ursprünglichen csv:
internal_conversion_id,order_id,conversion_target_id,product_nr
85,9222,67,1
20,9224,65,1
20,9224,65,2
20,9224,65,3
33,9223,67,1
33,9223,67,2
EDIT3:
ok, ich glaube, ich die Quelle gefunden.
Irgendwann im Code wollte ich eine zweite Variable mit dem gleichen Inhalt wie die erste, aber ohne die Duplikate erstellen. Pandas löscht auch alle Duplikate in der ersten Variablen. Wie kann ich Pandas davon abhalten?
hier ist das Stück Code:
bla2 = bla
bla2['order_id'] = bla2['order_id'].drop_duplicates()
bla2 = bla2[pd.notnull(bla2['order_id'])]
Können Sie ein paar Zeilen der Post Original-CSV-Datei? –
Was meinst du mit Duplikaten? – ayhan
Ohne einen Blick auf Ihre CSV-Datei, es ist schwer zu helfen.Veröffentlichen Sie den Kopf Ihrer CSV-Datei wie @ AlbertoGarcia-Raboso sagte –