Ich verstehe, dass wenn Sie ORC-Tabellen erstellen, wird es die Geschwindigkeit dramatisch verbessern. Können wir es jedoch weiter verbessern, indem wir eine ORC-Tabelle partitionieren und in einen Bucket verwandeln? Wenn ja, wie erfolgt die Partitionierung und das Bucketing in einer vorhandenen ORC-Tabelle?Partition und Bucket ORC Tabellen
1
A
Antwort
1
Sie können eine ORC-Tabelle segmentieren und partitionieren.
Partitionen werden direkt Verzeichnissen in HDFS zugeordnet. Sie können ALTER TABLE und Partition hinzufügen. Du müsstest die Wiederherstellung der Partition nach dir durchführen. Alles ist hier gut erklärt: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterPartition.
Persönlich würde ich neue Tabelle mit dynamischer Partitionierung erstellen und die Daten in neue Tabelle kopieren.
Könnten Sie die Art und Weise, wie Sie dynamische Partitionierung durchführen, näher erläutern? – Seen