Einer unserer Dataflow-Jobs schreibt seine Ausgabe in BigQuery. Mein Verständnis davon, wie dies unter der Oberfläche implementiert wird, besteht darin, dass Dataflow die Ergebnisse (sharded) im JSON-Format tatsächlich in GCS schreibt und dann einen BigQuery-Ladejob startet, um diese Daten zu importieren.Schreiben aus Dataflow in BigQuery - JSON-Dateien werden nicht gelöscht, wenn ein Job beendet wird
Wir haben jedoch festgestellt, dass einige JSON-Dateien nach dem Job nicht gelöscht werden, unabhängig davon, ob sie erfolgreich waren oder fehlgeschlagen sind. Es gibt keine Warnung oder einen Vorschlag in der Fehlermeldung, dass die Dateien nicht gelöscht werden. Als wir das bemerkten, schauten wir uns unseren Bucket an und es gab Hunderte von großen JSON-Dateien von fehlgeschlagenen Jobs (hauptsächlich während der Entwicklung).
Ich hätte gedacht, dass Dataflow jede Bereinigung behandeln sollte, selbst wenn der Job fehlschlägt, und wenn es erfolgreich ist, sollten diese Dateien definitiv gelöscht werden. Wenn Sie diese Dateien nach Abschluss des Jobs weitergeben, entstehen erhebliche Speicherkosten!
Ist das ein Fehler?
Beispiel Job-ID eines Auftrags, dass "gelungen", sondern Hunderte von großen Dateien in GCS links: 2015-05-27_18_21_21-8377993823053896089
Ist nicht von Entwurf. Vielen Dank, dass Sie uns dieses Problem aufgezeigt haben. Wir schauen hinein. –
gibt es ein Update zu diesem Fehler @Stephen Gildea? –
Dieses Problem wurde behoben. Bereinigt es dich jetzt? –