Ich habe eine große Textdatei, in die Spalten der folgenden Form sind:Fragen zu read_csv und str dtype
1255 32627 some random stuff which might have numbers 1245
1.Ich read_csv
nutzen möchte mich mit drei Spalten einen Datenrahmen zu geben. Die ersten beiden Spalten sollten dtype uint32 sein, und die dritte Spalte enthält einfach alles in einer Zeichenfolge. Die obige Zeile sollte in 1255
, 32627
und some random stuff which might have numbers 1245
aufgeteilt werden. Dies zum Beispiel tut es nicht, aber zumindest zeigt die dtypes:
pd.read_csv("foo.txt", sep=' ', header=None, dtype={0:np.uint32, 1:np.uint32, 2:np.str})
2.My zweite Frage bezieht sich auf die str
dtype.How viel RAM sie nicht verwendet und wenn ich die maximale Länge eines Strings wissen kann ich das reduzieren?
Danke. Es tut mir leid, ich meine, dass die Zeichenfolgen sehr kurz sein können (z. B. 2 Zeichen) und ein Objekt viele Bytes verwendet. – eleanora