So habe ich eine Haupttabelle in Hive, es speichert alle meine Daten.Hive: Der beste Weg, um inkrementelle Updates auf einer Haupttabelle zu tun
Ich möchte eine inkrementelle Datenaktualisierung über jeden Monat mit einer großen Menge an Daten paar Milliarden Zeilen laden können. Es wird neue Daten sowie aktualisierte Einträge geben.
Was ist der beste Weg, dies zu nähern, ich weiß, Hive vor kurzem aktualisieren und unterstützt Update/Einfügen/Löschen.
Was ich gedacht habe ist, die Einträge, die aktualisiert werden, irgendwie zu finden und sie aus der Haupttabelle zu entfernen und dann einfach das neue inkrementelle Update einzufügen. Nach dem Versuch sind die Inserts jedoch sehr schnell, aber die Löschvorgänge sind sehr langsam.
Die andere Möglichkeit besteht darin, mithilfe der update-Anweisung die Schlüsselwerte aus der Haupttabelle und der inkrementellen Aktualisierung abzugleichen und ihre Felder zu aktualisieren. Ich habe das noch nicht ausprobiert. Das klingt auch schmerzhaft langsam, da Hive müsste jeden Eintrag 1 um 1 zu aktualisieren.
Wer hat irgendwelche Ideen, wie dies am effizientesten und effektiv zu tun? Ich bin ziemlich neu in Hive und Datenbanken im Allgemeinen.
Thank you! Das ist eine großartige Idee! – Alex