Ich habe eine große Datenmenge in einer BigQuery-Tabelle gespeichert und möchte es in eine pypark RDD für ETL-Datenverarbeitung laden.BigQuery Connector für pyspark über Hadoop Input Format Beispiel
I erkennen, dass die BigQuery Hadoop Input/Output-Format
https://cloud.google.com/hadoop/writing-with-bigquery-connector
und pyspark sollte diese Schnittstelle verwenden, um in der Lage unterstützen eine RDD unter Verwendung des Verfahrens "newAPIHadoopRDD" zu erstellen.
http://spark.apache.org/docs/latest/api/python/pyspark.html
Leider ist die Dokumentation an beiden Enden scheint knapp und geht über mein Wissen über Hadoop/Zünd-/BigQuery. Gibt es jemanden, der herausgefunden hat, wie man das macht?
Hallo, ja. Ich hatte es eigentlich schon selbst herausgefunden. Sie haben jedoch nur den Connector für scala gepostet. Ich werde die Lösung mit pyspark einsetzen, wie ich Zeit habe. –