Ich möchte in der Lage sein, Bilder auf einem hdfs-Dateisystem zu lesen/schreiben und nutzen Sie die hdfs-Lokalität.mit pyspark, lesen/schreiben 2D-Bilder auf Hadoop-Dateisystem
Ich habe eine Sammlung von Bildern, wobei jedes Bild von
- 2D-Arrays von uint16
- Grunde zusätzlicher Informationen gespeichert als XML-Datei zusammengesetzt ist.
Ich möchte ein Archiv über hdfs Dateisystem erstellen und Funke für die Analyse des Archivs verwenden. Im Moment kämpfe ich um den besten Weg, die Daten über das hdfs-Dateisystem zu speichern, um die spark + hdfs-Struktur voll ausnutzen zu können.
Von dem, was ich verstehe, wäre der beste Weg, eine Sequenzdatei Wrapper zu erstellen. Ich habe zwei Fragen:
- Ist das Erstellen einer Sequenzdatei Wrapper der beste Weg?
- Hat jemand einen Zeiger auf Beispiele, mit denen ich anfangen könnte? Ich muss nicht der erste sein, der etwas anderes als Textdatei auf hdfs durch Funken lesen muss!
Dank - das ist interessant. Neugierig zu wissen, ob Sie auch Funken für die Tiff-Analyse verwendet haben? Ich arbeite mit großen (~ 800MB) TIFF-Dateien und möchte eine pyspark RDD aus dem numpy Array erstellen, aber nicht sicher, wie es geht. – user3591836
Von meinen Experimenten ist es viel einfacher, wenn ich die Daten richtig vorbereite: Ich wandle Bilddateien in "avro" -Dateien um, die überlappende Bildkacheln enthalten. Ich muss mit sehr großen Bildern (400 MPixel) umgehen und es ist die beste Lösung für mich. – MathiasOrtner
toll, danke für den Tipp! – user3591836