2016-04-08 10 views
-1

Nehmen wir an, wir haben JSON-Daten und wir wollen einige Ergebnisse für Business-Anwender generieren.So scheint folgende Ansatz gut zu sein?
Laden von Daten in Hive von HDFS und analysieren Sie es dann von Schwein mit hcatalog. Ich habe diesbezüglich eine Frage.
Q. Ist es in Ordnung, Daten von hcatalog zu laden und es in Schwein zu analysieren, wird dieser Leistungsüberhang vergleichen, um Daten direkt von Schwein zu lesen, indem man es in das HDFS hält.Laden von Daten in den Stock und dann Analyse vom Schwein mit Hilfe des Katalogs. Scheint das eine gute Idee zu sein?

Antwort

0

Ich würde persönlich bevorzugen, ETL mit Pig.In Ihrem Fall JSON Daten können mit JsonLoader geladen werden und können gespeichert werden mit JsonStorage.So würde ich die Daten mit Jsonloader laden und dann speichern sie in CSV.Then würde ich verwenden Hive, um diese Daten zu analysieren.

JSON Last

http://joshualande.com/read-write-json-apache-pig/

Alternative können wir twitter verwenden elephantbird json loader

http://eric.lubow.org/2011/hadoop/pig-queries-parsing-json-on-amazons-elastic-map-reduce-using-s3-data/