2016-06-21 2 views
2

dies ist eine grundlegende Frage über Arrays in numpy und Pandas Sortierung:Numpy schneller an als Pandas Sortierung

Ich erkennen, dass, wenn ich verwende Pandas zum Sortieren und bestimmte Spalten eines Datenrahmens der Auswahl, dass es fast doppelt so hoch war wie lang, als ich den Code änderte, um numpy Arrays zu verwenden.

Was ist der Grund für diese Geschwindigkeitsänderung?

Danke, Leon

zB. Pandas:

j = pd.DataFrame(df)   # df columns["date","I",...] 
j = j.sort(["date"], ascending=False) 
x = [[DATES[int(k[1]) - 1]] for k in j["date"].tolist()] 
y = j["I"].tolist() 

z. Numpy:

j = np.array(df)    # df column["date"] == j[:,0] 
j = np.array(sorted(j, key=lambda a_entry: a_entry[0])) 
x = [[DATES[int(k[1]) - 1]] for k in j[:,0].tolist()] 
y = j[:,4].tolist()   # df column["I"] == j[:,4] 

Antwort