2016-03-27 4 views
0

RDD (nämlich seine Partitionen) in Apache Spark sind faul berechnet, aber manchmal möchte ich das Ergebnis einer RDD wiederverwenden, wenn alle seine Partitionen bereits berechnet und die Ergebnisse im Speicher sind, und etwas anderes tun, wenn sie nicht sind (zB einige Optimierung zum Ausführungsplan des Ergebnisses). Ist es möglich, die RDD-API zu verwenden, um dies zu überprüfen?In Apache Spark, wie überprüft man, ob eine RDD vollständig im Speicher berechnet und gespeichert wurde?

+0

Einverstanden, es ist bereits in dieser Frage beantwortet. Bitte löschen Sie dieses. – tribbloid

Antwort

0

Der beste Weg ist, die RDD-Details im Web-UI zu überprüfen. Auf der Registerkarte "Speicher" in der Web-Benutzeroberfläche erhalten Sie die Liste der RDDs und deren Prozentsatz wird beibehalten. Sie haben auch eine REST-API für dasselbe. Aber ich würde es bevorzugen, sie im Web-UI zu überprüfen. Jede Funken Anwendung wird eine Web-UI haben, werden normalerweise mit Port 4040 oder 4041.

REST API

einige weitere Details:

https://blueplastic.gitbooks.io/how-to-light-your-spark-on-a-stick/content/spark_web_uis/spark_storage_ui.html

Lassen Sie mich wissen, wenn Sie weitere Details benötigen.

+0

@tribbloid möchte die Vorgehensweise in seinem Code ändern, daher scheint die WEBUI keine Option für ihn zu sein – mauriciojost