2016-07-12 17 views
0

Was ist der Unterschied zwischen HDInsight Hadoop-Cluster & HDInsight Spark-Cluster? Ich habe gesehen, dass sogar in Hadoop Cluster pyspark verfügbar ist. Ist der Unterschied in Bezug auf den Cluster-Typ? h. Hadoop-Cluster impliziert YARN als eine Cluster-Management-Schicht und Spark, was Spark Standalone (oder Mesos?) als eine Cluster-Management-Schicht impliziert?Was ist der Unterschied zwischen HDInsight-Hadoop-Cluster und HDInsight-Spark-Cluster?

Wenn das der Fall ist, können wir noch Spark in Hadoop-Cluster ausführen Ich glaube, dass Spark auf YARN läuft.

Antwort

0

Die Bits sind die gleichen wie Sie bemerkt haben. Der Unterschied besteht aus den Diensten und den Ambari-Komponenten, die standardmäßig ausgeführt werden (Spark verfügt über Spark Spark, Livy, Jupyter) und eine Reihe von Konfigurationen für diese Dienste. Während Sie also theoretisch Funke-Jobs auf Garnen auf Hadoop-Clustern ausführen können, ist es nicht empfehlenswert, einige Konfigurationen nicht auf optimale Werte zu setzen. Umgekehrt wäre es zuverlässiger - erstelle Funkencluster und führe Hadoop-Jobs darauf aus.

Maxim (HDInsight Spark-PM)

+0

Danke, das macht Sinn. Eine Sache wird jedoch nicht explizit aus Ihrer Antwort hervorgeholt - sagen Sie, dass HDInsight Spark YARN nicht als Clusterverwaltungsschicht verwendet? Wenn nicht, welchen benutzt es? Mesos oder Spark Standalone? – Dhiraj

1

HDInsight Funken verwendet GARN als Cluster-Management-Schicht, wie Hadoop. Die Binärdatei auf dem Cluster ist identisch.

Der Unterschied zwischen HDInsight Funken- und Hadoop Cluster sind die folgenden:

1) Optimale Konfigurationen: Spark-Cluster für die Funken Auslastungen abgestimmt und konfiguriert ist. Zum Beispiel haben wir vorkonfigurierte Spark-Cluster, um SSD zu verwenden, und passen die Executor-Speichergröße basierend auf der Maschinenressource an, so dass Kunden eine bessere Out-of-Box-Erfahrung als die Spark-Standardkonfiguration haben.

2) Service-Setups: Spark-Cluster führen auch Funke-bezogene Dienste einschließlich Livy, Jupyter und Spark Thrift Server.

3) Workload-Qualität: Wir testen Funke-Workloads auf Funke-Cluster vor jeder Veröffentlichung, um die Servicequalität sicherzustellen.