2016-05-30 11 views
1

Ich arbeite mit einem großen finanziellen Datensatz (15 GB für jetzt, aber 200 GB später). Was wird der beste Weg sein, damit zu arbeiten? Insbesondere möchte ich einige statistische Tests durchführen und einige Diagramme mit Millisekunden-Daten erstellen. Bis jetzt habe ich sqlite3 für das Schütteln der Leichtigkeit benutzt, aber es scheint nicht in der Lage zu sein, mit der Größe der Datei umzugehen. Ich benutze PyCharm (nicht sicher, ob es hilft)beste Möglichkeit, mit großen Datenmengen in Python zu arbeiten

+1

Pandas für den 15Gb-Satz, sonst wäre ein S3-Bucket oder hdfs-Cluster und PySpark wahrscheinlich am besten –

Antwort

0

sqlite ist keine gute Alternative, wenn Sie große Mengen von Daten verwalten möchten (eigentlich würde ich sqlite nicht für etwas anderes als Prototyping oder Tests verwenden).

Sie können versuchen, Amazon RDS zu verwenden, um die Datenbank http://aws.amazon.com/es/rds/ zu speichern und wählen Sie zwischen einer der Datenbank-Engines, die amazon bietet.

Wie für die Verwendung von Python, ich denke, Sie sollten die DB-Engine, um die Anfragen zu behandeln und einfach Python verwenden, um die Grafiken zu erstellen.

+0

Was ist eine DB-Engine? Kannst du bitte einige Namen/Beispiele angeben? – duckman

+0

Zum Beispiel PostgreSQL, MySQL, Oracle, Microsoft SQL Server usw. –