Unterstützt Hadoop-Streaming die neuen spaltenförmigen Speicherformate wie ORC und Parkett oder gibt es Frameworks auf Hadoop, mit denen Sie solche Formate lesen können?Streaming-Frameworks auf Hadoop, die ORC unterstützen, Parkett-Dateiformate
Antwort
Sie können HCatalog verwenden, um ORC-Datei zu lesen. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat
Es bietet Ihnen eine Abstraktion zum Lesen von ORC, Text, Sequenz, RC-Dateien. Ich bin mir nicht sicher, ob dort Parkett unterstützt wird. Wenn dies jedoch nicht sinnvoll erscheint, können Sie ORC-Aufzeichnungsleser in der Hive-Codebasis verwenden, um ORC-Dateien (ORCInputFormat, ORCOutputFormat) zu lesen.
Eher alte Nachrichten, aber ich hatte vor einiger Zeit damit zu kämpfen. Ich habe dafür keine Lösung gefunden, daher habe ich eine Reihe von Eingabe/Ausgabe-Formaten erstellt, die Avro- und Parkett-Dateien in/aus Nur-Text und JSON konvertieren. Es kann bei http://github.com/whale2/iow-hadoop-streaming gefunden werden. Es gibt keine ORC-Unterstützung, aber Avro und Parquet werden unterstützt. Hoffe, das hilft.