Ich habe eine Python-Anwendung, mit Flask gebaut, die den Import von vielen Datensätzen ermöglicht (irgendwo von 10k-250k + Datensätze auf einmal). Im Moment fügt sie in eine Datenbank Cassandra, durch Einfügen von einem Datensatz zu einem Zeitpunkt wie folgt aus:Wie Sie mit Python Bulk-Daten effizient in Cassandra einfügen?
for transaction in transactions:
self.transaction_table.insert_record(transaction)
Dieser Prozess unglaublich langsam ist. Gibt es einen Best-Practice-Ansatz, den ich verwenden könnte, um diese Massendaten effizienter einzufügen?
Die offensichtliche Sache wäre, versuchen Massen einfügen Fragen, die Cassandra unterstützt. Auch die Vorbereitung einer Abfrage und deren Wiederverwendung könnte tatsächlich schneller sein als Bulk-Inserts. Aber erwarte nicht, dass 250k-Datensätze schnell importiert werden. Vielleicht sollten Sie den Job an Mitarbeiter delegieren? – freakish