Ist es von Vorteil, Hive-Partitionen bei der Verwendung von Parkett-Dateispeicher zu erstellen. Parkett ist ein spaltenförmiges Speicherdateiformat, das Daten in Spaltenabschnitten speichert, wobei alle Spalten sequenziell nach Index gespeichert werden. Wenn wir eine Spalte auf der Basis eines Prädikats abfragen, springt der Spaltenauswahlindex auf der Grundlage des Prädikats in den erforderlichen Bereich und druckt die Werte. Wie wird Partitionierung hilfreich sein? In zeilenorientierten Hive-Tabellen ist die Partitionierung hilfreich, da wir nur den spezifizierten erforderlichen Datenbereich erreichen, aber nicht imstande sind zu verstehen, wie es im Parkettspeicher hilfreich sein wird.Vorteil der Erstellung von Hive-Partitionen bei Verwendung von Parkett-Dateispeicher
Antwort
In nicht partitionierten Tabellen müsste Hive alle Dateien im Datenverzeichnis der Tabelle lesen und dann Filter anwenden. Für große Tabellen ist es langsam und teuer. In Partitionstabellen werden Unterverzeichnisse erstellt, die auf der Partitionsspalte basieren. Sie verteilt die Ausführungslast horizontal, und es ist nicht erforderlich, ganze Tabellenspalten für einzelne Datensätze zu durchsuchen. Das Parkett-Dateiformat hat eine bessere Komprimierung, aber die Leistung ist nicht so gut. Die Partition mit Parkett reduzieren die Ausführungszeit der Abfrage.wenn ich Filterabfrage auf Parkett Tisch ausgeführt, dauerte es 29,657 Sekunden, während Partition mit Parkett-Format dauerte 14,21 Sekunden.Wenn es große Tabelle ist, dann wird es definitiv die Leistung der Abfrage verbessern .