Ich versuche, einige Pandas Dataframe, die ich aus einer Reihe von CSV-Dateien zu lesen, und nach der 16. Datei oder so bekomme ich einen Speicherfehler. Die neuen Dateien sind Pandas mit etwa 300.000 Zeilen.Pandas Dataframe iterativ auf effiziente Weise hinzufügen
Gibt es eine Möglichkeit, dies auf der Festplatte (z. B. mit hdf5) oder auf eine speicher effizientere Weise zu tun?
Siehe Code unten. Beachten Sie, dass sum_of_all_files als leerer Datenrahmen beginnt.
sum_of_all_files = pd.DataFrame()
for file_name in list_of_files:
file_df=pd.read_csv(file_name,index_col=0,header=None).dropna()
sum_of_all_files=sum_of_all_files.add(file_df,fill_value=0, axis='index')
Vielen Dank!
BEARBEITEN: Ich möchte nach Index, d. H. Wenn zwei Zeilen den gleichen Index haben, fügen Sie sie hinzu. Ich habe den obigen Code korrigiert, indem ich "axis = 'index'" in der letzten Zeile hinzufüge.
Was ist Ihr Ziel, alles in einen DF zu laden oder es im laufenden Betrieb zu verarbeiten und wieder auf die Festplatte zu schreiben? – MaxU
@MaxU Das Ziel ist eine Tabelle mit dem Inhalt aller csv-Dateien, die von Schlüsseln hinzugefügt werden. Es kann in der Festplatte oder im Speicher sein ... – Escachator
Wie viele Spalten haben csvs? – jezrael