Maximale Größe der Zeilen in Spark-Jobs mit Avro/Parkett

Ich plane, Spark zu verwenden, um Daten zu verarbeiten, wobei jedes einzelne Element/Zeile in der RDD oder DataFrame gelegentlich groß sein kann (bis zu mehreren GB).Maximale Größe der Zeilen in Spark-Jobs mit Avro/Parkett

Die Daten werden wahrscheinlich in Avro-Dateien in HDFS gespeichert.

Offensichtlich muss jeder Executor genug RAM haben, um eine dieser "fetten Reihen" im Gedächtnis zu halten, und einige, um zu verschonen.

Gibt es andere Einschränkungen für die Zeilengröße für Spark/HDFS oder für die gängigen Serialisierungsformate (Avro, Parquet, Sequence File ...)? Können beispielsweise einzelne Einträge/Zeilen in diesen Formaten viel größer sein als die HDFS-Blockgröße?

mir weiß veröffentlichten Einschränkungen für HBase und Cassandra, aber nicht Funken ...

Quelle

2016-05-06 DNA

Es liegen noch einige grundlegende Einschränkungen im Zusammenhang mit Blockgröße, sowohl für Partitionen im Einsatz und für Shuffle-Blöcke - beide sind begrenzt auf 2GB, was die maximale Größe eines ByteBuffers ist (weil es einen int Index benötigt, also auf Integer.MAX_VALUE Bytes beschränkt ist).

Die maximale Größe einer einzelnen Zeile muss normalerweise viel kleiner als die maximale Blockgröße sein, da jede Partition normalerweise viele Zeilen enthält und die größten Zeilen möglicherweise nicht gleichmäßig auf die Partitionen verteilt sind - wenn es sich zufällig um eine Partition handelt enthält eine ungewöhnlich große Anzahl von großen Zeilen, kann dies über die Grenze von 2 GB schieben, den Job abstürzen.

See:

Why does Spark RDD partition has 2GB limit for HDFS?

Verwandte Jira Tickets für diese Spark-Probleme:

Quelle

2016-05-06 20:52:33 DNA

Maximale Größe der Zeilen in Spark-Jobs mit Avro/Parkett

Antwort

Verwandte Themen