2016-07-21 26 views

Antwort

1

Wenn Sie nicht beabsichtigen, andere Manipulation Ihrer Daten in BigQuery zu tun, dann würden Sie nichts aus dem Speichern Ihrer Daten in BigQuery gewinnen für diesen Anwendungsfall.

Per https://cloud.google.com/hadoop/bigquery-connector,

Der BigQuery-Anschluss für Hadoop-Downloads von Daten in Ihren Google Cloud Storage Eimer vor einem Hadoop Job ausgeführt wird.

Mit anderen Worten, der Connector führt kein Push-Down-Prädikat durch oder nutzt anderweitig BigQuery für die Berechnung. Dieser Connector ist nur eine bequeme Methode, um auf Daten zuzugreifen, die Sie bereits in BigQuery speichern oder generieren.

+0

Würden Sie eine Leistungsverbesserung erwarten oder eine skalierbarere Lösung haben, indem Sie BigQuery als Datenquelle verwenden? – mobcdi

+0

Nein; eigentlich das Gegenteil. Ihre Daten müssten aus BigQuery in Google Cloud Storage exportiert werden, damit sie für Dataproc zugänglich sind, sodass Sie Ihrer Abfrage Latenz hinzufügen. – thomaspark