Ich habe eine Anforderung zum Laden von Daten aus einer Hive-Tabelle mit Spark-SQL HiveContext
und laden in HDFS. Standardmäßig hat die DataFrame
SQL-Ausgabe 2 Partitionen. Um mehr Parallelität zu erreichen, brauche ich mehr Partitionen aus dem SQL. Es gibt keine überladene Methode in HiveContext, um die Anzahl der Partitionen zu übernehmen.Wie Ändern der Partitionsgröße in Spark SQL
Die Neupartitionierung der RDD verursacht ein Mischen und führt zu mehr Verarbeitungszeit.
val result = sqlContext.sql("select * from bt_st_ent")
Hat die Protokollausgabe von:
Starting task 0.0 in stage 131.0 (TID 297, aster1.com, partition 0,NODE_LOCAL, 2203 bytes)
Starting task 1.0 in stage 131.0 (TID 298, aster1.com, partition 1,NODE_LOCAL, 2204 bytes)
Ich mag wissen würde, ist es eine Möglichkeit, die Partitionen Größe der SQL-Ausgabe zu erhöhen.
Dies funktionierte nicht in unserem Cluster für Spark 2.1.1 mit Datensatz –
Luckylukee