Kann ORC-Dateiformat in Impala verwendet werden? Wie man auf die ORC-Tabelle zugreifen kann, die im Bienenstockmetastore in Impala gespeichert wird. unten Dokumentation Link gefunden, aber es macht keinen beschränkte Dateiformate Liste oder Erwähnung von ORC enthält nicht mit Impalas unterstützt: http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.htmlORC-Dateiformat mit Impala
Antwort
ORC ist nicht in Impala unterstützt. Stattdessen ist Apache Parquet das empfohlene Format für die beste Leistung.
Impala kann das ORC-Dateiformat nicht lesen. Wenn Sie die Möglichkeit haben, würde ich vorschlagen, Ihre ORC-Dateien mit Hive zu PARQUET zu migrieren. Der Vorteil ist, dass Sie nur einmal für die Einrichtung von Map-Reduce-Aufgaben bezahlen müssen. ACID-Funktion in Hive zu unterstützen und zeigten eine bessere Abfrageleistung und das Verdichtungsverhältnis in einem gewissen Benchmarking
CREATE TABLE nameoforctable_parquet
LIKE nameoforctable
STORED AS PARQUET
LOCATION '/your/hdfs/location';
INSERT INTO nameoforctable_parquet
SELECT * FROM nameoforctable
Obwohl ORC das einzige Format ist:
Wenn Ihr ORC-Tabelle ist nameoforctable, die eine sehr einfache Abfrage aussieht Studien, Impala unterstützt das ORC-Dateiformat nicht, weil es von Hortonworks erstellt wurde, der einer ihrer Hauptkonkurrenten ist. Umgekehrt unterstützt die Hive-Version auf der Hortonworks Data Platform (HDP) Parquet aus dem gleichen Grund nicht.
_ "die Hive-Version auf Hortonworks ... unterstützt kein Parkett" _ >> WAS? Kannst du das beweisen? –
Aus meiner Diskussion mit dem HDP-Supporttechniker unterstützt HDP offiziell nicht Parquet auf ihrer Plattform, d. H. Sie können immer noch Parquet verwenden, aber wenn Sie irgendwelche Probleme damit haben, sind Sie auf sich gestellt. –
OK, also ist es ein bisschen anders: Impala ** funktioniert ** mit nur einem Spaltenformat, d. H. Apache Parquet, weil es Impala-spezifische C++ - Bibliotheken verwendet; Apache Hive arbeitet mit vielen Formaten, die standardmäßige Hive "SerDe" Java-Bibliotheken bereitstellen, aber HortonWorks ** zahlender Support ** deckt nur ein Spaltenformat ab, d. H. Apache ORC * (und nicht Apache-Parkett oder Apache CarbonData) *. Das macht Sinn. –