ORC-Dateiformat mit Impala

Kann ORC-Dateiformat in Impala verwendet werden? Wie man auf die ORC-Tabelle zugreifen kann, die im Bienenstockmetastore in Impala gespeichert wird. unten Dokumentation Link gefunden, aber es macht keinen beschränkte Dateiformate Liste oder Erwähnung von ORC enthält nicht mit Impalas unterstützt: http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html ORC-Dateiformat mit Impala

Quelle

2016-05-11 deepakgiria

ORC ist nicht in Impala unterstützt. Stattdessen ist Apache Parquet das empfohlene Format für die beste Leistung.

Quelle

2016-05-11 17:44:55

Impala kann das ORC-Dateiformat nicht lesen. Wenn Sie die Möglichkeit haben, würde ich vorschlagen, Ihre ORC-Dateien mit Hive zu PARQUET zu migrieren. Der Vorteil ist, dass Sie nur einmal für die Einrichtung von Map-Reduce-Aufgaben bezahlen müssen. ACID-Funktion in Hive zu unterstützen und zeigten eine bessere Abfrageleistung und das Verdichtungsverhältnis in einem gewissen Benchmarking

CREATE TABLE nameoforctable_parquet 
LIKE nameoforctable 
STORED AS PARQUET 
LOCATION '/your/hdfs/location'; 

INSERT INTO nameoforctable_parquet 
SELECT * FROM nameoforctable

Quelle

2016-06-09 22:37:44

Obwohl ORC das einzige Format ist:

Wenn Ihr ORC-Tabelle ist nameoforctable, die eine sehr einfache Abfrage aussieht Studien, Impala unterstützt das ORC-Dateiformat nicht, weil es von Hortonworks erstellt wurde, der einer ihrer Hauptkonkurrenten ist. Umgekehrt unterstützt die Hive-Version auf der Hortonworks Data Platform (HDP) Parquet aus dem gleichen Grund nicht.

Quelle

2017-04-08 04:02:43

_ "die Hive-Version auf Hortonworks ... unterstützt kein Parkett" _ >> WAS? Kannst du das beweisen? –

Aus meiner Diskussion mit dem HDP-Supporttechniker unterstützt HDP offiziell nicht Parquet auf ihrer Plattform, d. H. Sie können immer noch Parquet verwenden, aber wenn Sie irgendwelche Probleme damit haben, sind Sie auf sich gestellt. –

OK, also ist es ein bisschen anders: Impala ** funktioniert ** mit nur einem Spaltenformat, d. H. Apache Parquet, weil es Impala-spezifische C++ - Bibliotheken verwendet; Apache Hive arbeitet mit vielen Formaten, die standardmäßige Hive "SerDe" Java-Bibliotheken bereitstellen, aber HortonWorks ** zahlender Support ** deckt nur ein Spaltenformat ab, d. H. Apache ORC * (und nicht Apache-Parkett oder Apache CarbonData) *. Das macht Sinn. –

Antwort

Verwandte Themen