12000 Dateien in eine Tabelle importieren

Ich muss eine Streaming-Umgebung für mein Projekt einrichten. Der Datensatz wird als nächstes: http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf 12000 Dateien in eine Tabelle importieren

Ich plane, PostgreSQL und Apache Kafka als Quelle zu verwenden und dann zu Kafka mit Apache Funken oder Flink zu verbinden, aber das Problem ist, dass die Datenmenge um 10 000 Textdateien sind.

Also, die Frage ist, was am effizientesten/elegantesten Weg ist, ~ 10000 Dateien (jeweils um 500 Zeilen) in eine Tabelle zu importieren.

Für jetzt habe ich Python-Skript versucht, mit psycopg2 und executemany Methode (super langsam) und Apache FLink Job mit JDBC-Connector (gute Geschwindigkeit, aber weiß nicht, wie in mehr als 10000 Dateien iterieren ein Job.

Quelle

2016-06-03 Dima Arbuzin

eine einfache Lösung wäre es, den Ordner mit Funken lesen und eine ODBC-Verbindung pro Partition öffnen und durchlaufen und jede Zeile schreiben.

Quelle

2016-06-04 05:10:20

die mit Parallelität ganz glatt gearbeitet 4, jedoch habe ich verwendet Flink. –

12000 Dateien in eine Tabelle importieren

Antwort

Verwandte Themen