2015-02-19 5 views
9

Die Parkettunterlagen von Cloudera zeigen Beispiele für die Integration von Schwein/Bienenstock/Impala. aber in vielen Fällen möchte ich die Parkettdatei selbst zu Debugging-Zwecken lesen.Wie liest man eine Parkett-Datei in einem eigenständigen Java-Code?

Gibt es einen einfachen java reader api, um eine Parkettdatei zu lesen?

Dank Yang

+0

Dies ist keine direkte Antwort, aber Sie können etwas Glück haben, indem Sie durch das Parkett-Tools-Projekt gehen, das ein Befehlszeilen-Tool zum Lesen von Parkett-Dateien und sehen, was Sie aus Ihrer eigenen Java-Anwendung aufrufen können. https://github.com/apache/incubator-parquet-mr/tree/master/parquit-tools –

+0

bezogen: http://stackoverflow.com/questions/30565510/how-to-read-and-write-mapstring- object-from-to-parket-Datei-in-java-or-scala – okigan

+1

@ JeremyBeard Dieser Repo ist leer von 1/17 – javadba

Antwort

6

Sie AvroParquetReader von Parkett-avro Bibliothek verwenden können, ein Parkett Datei als eine Reihe von AVRO GenericRecord Objekten zu lesen.

+0

Oder bestimmte (für Geschwindigkeit). –

3

Alte Methode: (veraltet)

AvroParquetReader<GenericRecord> reader = new AvroParquetReader<GenericRecord>(file); 
GenericRecord nextRecord = reader.read(); 

Neue Methode:

AvroParquetReader<GenericRecord> reader = new AvroParquetReader.<GenericRecord>builder(file).build(); 
GenericRecord nextRecord = reader.read(); 

ich diese bekam von here und haben dies in meinem Testfällen erfolgreich eingesetzt.