Ich habe gerade einen 7-Knoten-Funke-Cluster mit jedem Arbeiter mit 8 GB Speicher und 4 Kernen erstellt. Es ist kein riesiger Cluster, aber scheitert mit "GC Overhead Limit überschritten" für nur 10 GB Daten für eine einfache terasort.Bietet Databricks empfohlene Spark-Parameter für einen bestimmten Cluster und Datensatz?
Ich möchte wissen, wie ich diese grundlegenden Parameter für ein Funke-Cluster entscheide, so dass der Job nicht fehlschlägt, wenn die Datengröße wächst.
- num von Exekutoren
- num von Partitionen
- Parallelität
- Testamentsvollstrecker Kerne
- Testamentsvollstrecker Speicher
ich nichts dagegen, Job langsam laufen, wenn nicht richtig konfiguriert sondern verarbeitet sterben wegen des Mangels an Speicher ist eine große rote Fahne.