2016-06-03 3 views
1

Ich muss eine Streaming-Umgebung für mein Projekt einrichten. Der Datensatz wird als nächstes: http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf12000 Dateien in eine Tabelle importieren

Ich plane, PostgreSQL und Apache Kafka als Quelle zu verwenden und dann zu Kafka mit Apache Funken oder Flink zu verbinden, aber das Problem ist, dass die Datenmenge um 10 000 Textdateien sind.

Also, die Frage ist, was am effizientesten/elegantesten Weg ist, ~ 10000 Dateien (jeweils um 500 Zeilen) in eine Tabelle zu importieren.

Für jetzt habe ich Python-Skript versucht, mit psycopg2 und executemany Methode (super langsam) und Apache FLink Job mit JDBC-Connector (gute Geschwindigkeit, aber weiß nicht, wie in mehr als 10000 Dateien iterieren ein Job.

Antwort

1

eine einfache Lösung wäre es, den Ordner mit Funken lesen und eine ODBC-Verbindung pro Partition öffnen und durchlaufen und jede Zeile schreiben.

+0

die mit Parallelität ganz glatt gearbeitet 4, jedoch habe ich verwendet Flink. –