2016-05-11 21 views

Antwort

2

ORC ist nicht in Impala unterstützt. Stattdessen ist Apache Parquet das empfohlene Format für die beste Leistung.

0

Impala kann das ORC-Dateiformat nicht lesen. Wenn Sie die Möglichkeit haben, würde ich vorschlagen, Ihre ORC-Dateien mit Hive zu PARQUET zu migrieren. Der Vorteil ist, dass Sie nur einmal für die Einrichtung von Map-Reduce-Aufgaben bezahlen müssen. ACID-Funktion in Hive zu unterstützen und zeigten eine bessere Abfrageleistung und das Verdichtungsverhältnis in einem gewissen Benchmarking

CREATE TABLE nameoforctable_parquet 
LIKE nameoforctable 
STORED AS PARQUET 
LOCATION '/your/hdfs/location'; 

INSERT INTO nameoforctable_parquet 
SELECT * FROM nameoforctable 
0

Obwohl ORC das einzige Format ist:

Wenn Ihr ORC-Tabelle ist nameoforctable, die eine sehr einfache Abfrage aussieht Studien, Impala unterstützt das ORC-Dateiformat nicht, weil es von Hortonworks erstellt wurde, der einer ihrer Hauptkonkurrenten ist. Umgekehrt unterstützt die Hive-Version auf der Hortonworks Data Platform (HDP) Parquet aus dem gleichen Grund nicht.

+0

_ "die Hive-Version auf Hortonworks ... unterstützt kein Parkett" _ >> WAS? Kannst du das beweisen? –

+0

Aus meiner Diskussion mit dem HDP-Supporttechniker unterstützt HDP offiziell nicht Parquet auf ihrer Plattform, d. H. Sie können immer noch Parquet verwenden, aber wenn Sie irgendwelche Probleme damit haben, sind Sie auf sich gestellt. –

+1

OK, also ist es ein bisschen anders: Impala ** funktioniert ** mit nur einem Spaltenformat, d. H. Apache Parquet, weil es Impala-spezifische C++ - Bibliotheken verwendet; Apache Hive arbeitet mit vielen Formaten, die standardmäßige Hive "SerDe" Java-Bibliotheken bereitstellen, aber HortonWorks ** zahlender Support ** deckt nur ein Spaltenformat ab, d. H. Apache ORC * (und nicht Apache-Parkett oder Apache CarbonData) *. Das macht Sinn. –