2016-04-08 5 views
0

Wir haben eine große Anzahl von relativ kleinen eingehenden Dateien für die Analyse, alle mit leichten Abweichungen von den verfügbaren Spalten. Wir konvertieren sie in das avro-Format und verwalten eine Master-Union-Schemadatei für alle Datendateien. Wir erstellen dann eine HIVE-Tabelle und stellen sie für die Abfrage zur Verfügung.Wie würden HIVE-Abfragen effizient Daten im AVRO-Format finden?

Ich kann nicht helfen, aber denke, dass etwas mit diesem Bild nicht stimmt. Wie würde eine Abfrage in der Lage sein zu identifizieren, auf welche einzelne Datei oder Dateien zugegriffen werden soll, um eine kleine Datenteilmenge abzurufen? Würde nicht jede Abfrage jede Datei lesen und nach den abgefragten Daten suchen? Dies scheint äußerst ineffizient zu sein. Eine Option wäre, diese Dateien zu kombinieren, aber selbst mit Dateien, die genau die gleiche Größe wie die Hadoop-Blockgröße haben, hätten wir eine große Anzahl von Dateien.

Jetzt habe ich vollständige Informationen über den Inhalt jeder Datei. Sie sind nach Datum gekennzeichnet. Wenn ich also manuell nach Daten suchen würde, würde ich genau wissen, auf welche Dateien zugegriffen werden soll. Wie baue ich dieses Wissen in die HIVE-Schnittstelle ein?

Antwort

0

Ich glaube, meine Frage ist nicht einzigartig für AVRO-Dateiformate und ist ein allgemeines Problem beim Erstellen von HIVE-Tabellen für alle zugrunde liegenden externen Daten, die in mehrere Dateien fragmentiert ist. Wenn Sie eine Google-Suche durchführen, die dieselbe Frage zu HIVE und mehreren Dateien stellt, werden Sie feststellen, dass der beste Weg, um dies zu lösen, das Erstellen von Partitionen in der Tabelle ist. Jede Partition führt die Abfragen so, dass sie nur die relevanten Dateien durchlaufen.

Der Trick besteht darin, richtig zu entwerfen, wie Sie Ihre Dateien in Unterordnern speichern und entsprechende Partitionen zuweisen.