Ich habe eine data.table
mit 30 Millionen Zeilen und 15 Spalten auf der Festplatte (Größe 177 MB, Datei 1) gespeichert.Hinzufügen von mehr Spalten zu einer Datentabelle Verringerung der Größe des. RData-Objekts
Ich lade diese Daten in R, verarbeite sie und füge weitere 8 Spalten (Reihen bleiben gleich) hinzu und speichere sie erneut als .RData
Datei, aber dieses Mal ist ihre Größe gesunken (144 MB, Datei 2).
Wie ist das möglich? Sollte nicht die Größe der .RData
Datei erhöhen, wenn ich mehr Spalten hinzugefügt habe?
EDIT: Erste Datei ist data.table (in R), die ich es als. RData auf der Festplatte speichern (Datei 1, 177 MB). Ich lade es dann wieder in R, bearbeite es, füge weitere Spalten hinzu (Zeilen bleiben gleich) und speichere es zurück (Datei 2, 144 MB).
.RData ist die komprimierte Datei, die weniger Speicherplatz benötigt. Daher ist es sinnvoller, R-Objekte zu speichern. – MAPK
Wie ist das Format der Originaldaten? Ist es eine Textdatei (z. B. CSV) oder eine '.RData' Datei? Können Sie auch ein reproduzierbares Beispiel veröffentlichen (z. B. Daten simulieren, schreiben, zurücklesen und dann erneut speichern)? –