In letzter Zeit habe ich die Leistung einiger großer, shuffle schwerer Jobs optimiert. Mit Blick auf die Spark UI habe ich eine Option namens "Shuffle Read Blocked Time" im Abschnitt mit den zusätzlichen Metriken gefunden.Spark - Shuffle Read Blocked Time
Diese "Shuffle Read Blocked Time" scheint für einen großen Teil der Aufgaben mehr als 50% der Taskdauer zu betragen.
Während ich einige Möglichkeiten für das, was dies bedeutet, intuitiv erfassen kann, kann ich keine Dokumentation finden, die erklärt, was es tatsächlich darstellt. Unnötig zu sagen, dass ich auch keine Ressourcen zu Mitigationsstrategien finden konnte.
Kann mir jemand einen Einblick geben, wie ich Shuffle Read Blocked Time reduzieren kann?