Ich mache Join-Operation im Bienenstock. Wenn jedoch der Reduzierer 99% erreicht, bleibt der Reduzierer stecken.Wie verfälschte Daten mit Hive verarbeiten?
Dann habe ich festgestellt, dass es Skew-Daten in der Tabelle gibt. Bsp. In Tabelle A gibt es 1 Million Daten und Tabelle B hat nur 10k. In Tabelle A hat die Verbindungsspalte 80% gleiche Werte und Rest ist anders. Also Bienenstock Reducer bei diesem Wert stecken.
Hier ist meine Frage:
INSERT INTO TABLE xyz SELECT m.name, m.country, m.user_type, m.category FROM A m JOIN category n ON (m.name = n.name) where country=2 GROUP BY m.name, m.country, m.user_type, m.category;
Also bitte mögliche Lösung vorschlagen. Wie kann ich den Join-Vorgang für diese Art von Daten verarbeiten?
http://stackoverflow.com/questions/32370033/hive-join-optimization/32373086#32373086 –
Danke @KishoreKumarSuthar für die Antwort. Es ist etwas cooles. –