Ich habe 2 TB von Handy-Aufzeichnungen, etwa 33 Milliarden Lesungen von 1,8 Millionen Benutzern. Ich habe eine Partition für die Benutzer-ID erstellt. Impala erstellt viele Unterverzeichnisse namens userid=XXXXX
. Dies scheint wie über Partitionierung mit 1,8 Millionen Sub-Dirs. Gibt es eine Möglichkeit, Partitionen mit einer Reihe oder einem Array von Zahlen zu haben?Impala Partitionen mit < or > Bedingungen
2
A
Antwort
2
Momentan hat Impala keine Bereichsaufteilung. Sie müssen also in einer anderen Spalte in Ihrer Tabelle partitionieren, um weniger Partitionen zu erstellen. Oder als Workaround können Sie Ihrer Tabelle eine zusätzliche Spalte hinzufügen, die den angegebenen Bereich für jeden Datensatz speichert und dann in der Spalte "Bereich" partitioniert. Beispiel: Sie haben einen Datensatz mit einem Feld user_id = 1234, das dann auch ein Feld Ihres Bereichs user_range = 0_100000 hätte, das Sie für die Partitionierung verwenden könnten.