Ich plane, Spark zu verwenden, um Daten zu verarbeiten, wobei jedes einzelne Element/Zeile in der RDD oder DataFrame gelegentlich groß sein kann (bis zu mehreren GB).Maximale Größe der Zeilen in Spark-Jobs mit Avro/Parkett
Die Daten werden wahrscheinlich in Avro-Dateien in HDFS gespeichert.
Offensichtlich muss jeder Executor genug RAM haben, um eine dieser "fetten Reihen" im Gedächtnis zu halten, und einige, um zu verschonen.
Gibt es andere Einschränkungen für die Zeilengröße für Spark/HDFS oder für die gängigen Serialisierungsformate (Avro, Parquet, Sequence File ...)? Können beispielsweise einzelne Einträge/Zeilen in diesen Formaten viel größer sein als die HDFS-Blockgröße?
mir weiß veröffentlichten Einschränkungen für HBase und Cassandra, aber nicht Funken ...