0

Ich habe ein Szenario, in dem ich Daten von einer Datenbank (Postgres) bin holen und in einer anderen Datenbank (Redshift)Pentaho Kettle - Abrufen von Daten aus verschiedener Datenbank

Gibt es trotzdem in Kettle die Daten in eine Tabelle laden um diesen Job zu planen?

Es ist eine einfache insert into redshift select * from postgres

+0

Tabelleneingabe (Verbindung zu Postgres) -> Tabellenausgabe (Verbindung zur Rotverschiebung). Wenn nötig, passen Sie die Datentypen dazwischen an. – simar

+0

Holen Sie JDBC Treiber für Amazon Rotverschiebung und kopieren Sie nach $ KETTLE_HOME/lib – simar

Antwort

1

eine Tabelle Output Schritt Verwenden sein kann quälend langsam wie Redshift für Bulk-Einsätze optimiert ist, nicht Zeile-für-Zeile-Einsätzen. AFAIK, es gibt keine Schritte/Plugins in Kettle für Masseneinsätze in Redshift. Was Sie tun können, ist ein Skript in einem Shell-Schritt zu machen, dass:

  1. Dumps Daten von Postgres
  2. kopiert die Daten in S3 in Datei: https://anotherreeshu.wordpress.com/2015/11/30/loading-data-to-aws-s3-bucket-pentaho-data-integration/
  3. die Daten von S3 zu Redshift Einsätze: https://anotherreeshu.wordpress.com/2015/12/11/loading-data-from-s3-to-redshift-pentaho-data-integration/