Ich verstehe aus der Dokumentation für Dataproc seine Daten aus BigQuery mit PysPark lesen, aber es ist ein Vorteil, wenn Kmeans Clustering auf ndarrays mit einer Form (xxxxxxx,) über sagen liest eine Datei-Darstellung von CloudStorage stattGibt es Vorteile bei der Verwendung von BigQuery als Datenquelle von ndarrays für Dataproc bei der Berechnung von Kmeans Clustering mit Python
0
A
Antwort
1
Wenn Sie nicht beabsichtigen, andere Manipulation Ihrer Daten in BigQuery zu tun, dann würden Sie nichts aus dem Speichern Ihrer Daten in BigQuery gewinnen für diesen Anwendungsfall.
Per https://cloud.google.com/hadoop/bigquery-connector,
Der BigQuery-Anschluss für Hadoop-Downloads von Daten in Ihren Google Cloud Storage Eimer vor einem Hadoop Job ausgeführt wird.
Mit anderen Worten, der Connector führt kein Push-Down-Prädikat durch oder nutzt anderweitig BigQuery für die Berechnung. Dieser Connector ist nur eine bequeme Methode, um auf Daten zuzugreifen, die Sie bereits in BigQuery speichern oder generieren.
Würden Sie eine Leistungsverbesserung erwarten oder eine skalierbarere Lösung haben, indem Sie BigQuery als Datenquelle verwenden? – mobcdi
Nein; eigentlich das Gegenteil. Ihre Daten müssten aus BigQuery in Google Cloud Storage exportiert werden, damit sie für Dataproc zugänglich sind, sodass Sie Ihrer Abfrage Latenz hinzufügen. – thomaspark