Streaming-Frameworks auf Hadoop, die ORC unterstützen, Parkett-Dateiformate

Unterstützt Hadoop-Streaming die neuen spaltenförmigen Speicherformate wie ORC und Parkett oder gibt es Frameworks auf Hadoop, mit denen Sie solche Formate lesen können?Streaming-Frameworks auf Hadoop, die ORC unterstützen, Parkett-Dateiformate

Quelle

2014-04-03 viper

Sie können HCatalog verwenden, um ORC-Datei zu lesen. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

Es bietet Ihnen eine Abstraktion zum Lesen von ORC, Text, Sequenz, RC-Dateien. Ich bin mir nicht sicher, ob dort Parkett unterstützt wird. Wenn dies jedoch nicht sinnvoll erscheint, können Sie ORC-Aufzeichnungsleser in der Hive-Codebasis verwenden, um ORC-Dateien (ORCInputFormat, ORCOutputFormat) zu lesen.

Quelle

2014-06-24 10:59:07 user3614890

Eher alte Nachrichten, aber ich hatte vor einiger Zeit damit zu kämpfen. Ich habe dafür keine Lösung gefunden, daher habe ich eine Reihe von Eingabe/Ausgabe-Formaten erstellt, die Avro- und Parkett-Dateien in/aus Nur-Text und JSON konvertieren. Es kann bei http://github.com/whale2/iow-hadoop-streaming gefunden werden. Es gibt keine ORC-Unterstützung, aber Avro und Parquet werden unterstützt. Hoffe, das hilft.

Quelle

2014-09-28 11:15:15 user3134802

Streaming-Frameworks auf Hadoop, die ORC unterstützen, Parkett-Dateiformate

Antwort

Verwandte Themen