Ich möchte Zeitreihendaten in einem Datenrahmen von einem CSV enthalten. Ich benutze das folgende Verfahren:Wie berechnet Pandas Indizes?
path = [r'C:\data_' + str(x) + ".csv" for x in range(1150, 1177)]
data_df = pd.concat(pd.read_csv(f, delimiter = ",", header = None) for f in path)
data_df.head()
Und das Ergebnis ist wie folgt aus:
data_df.info()
Wie ist es möglich, dass Indizes (1-187481) unterscheiden aus der Anzahl der Zeilen (5387507)?
Doing
data_df.reset_index()
Dinge normal:
Wie wird der Anfangsindex berechnet?
Versuch 'zu verwenden ignore_index = true' im' pd.concat() 'Anruf. Jeder Aufruf von 'pd.read_csv()' generiert seinen eigenen Index für jede CSV-Datei und wenn Sie sie verketten - 'pd.concat()' kopiert diese standardmäßig, so dass Sie doppelte Einträge haben ... – MaxU
danke @ MaxU für die Hilfe! – jcsun