Wie bekomme ich Array/Beutel mit Elementen von Hive Group nach Operator?

Ich möchte nach einem bestimmten Feld gruppieren und die Ausgabe mit gruppierten Feldern erhalten. Unten ist ein Beispiel dafür, was ich zu erreichen versuchen: -Wie bekomme ich Array/Beutel mit Elementen von Hive Group nach Operator?

eine Tabelle, wie unten ‚sample_table‘ mit zwei Spalten namens Imagine: -

Ich mag Hive Abfrage schreiben, die die unten Ausgabe geben werden : -

001 [111, 222, 123] 
002 [222, 333] 
003 [555]

In Schwein, das durch so etwas wie dieses lassen sich sehr leicht erreicht: -

grouped_relation = GROUP sample_table BY F1;

Kann jemand bitte vorschlagen, ob es eine einfache Möglichkeit gibt, dies in Hive zu tun? Was ich mir vorstellen kann, ist eine benutzerdefinierte Funktion (User Defined Function, UDF) dafür zu schreiben, aber das könnte eine sehr zeitraubende Option sein.

Quelle

2013-05-08 Anuroop

Die integrierte Aggregatfunktion collect_set (doumented here) bekommt Sie fast, was Sie wollen. Es wäre tatsächlich auf Ihrem Beispiel Eingabe arbeiten:

SELECT F1, collect_set(F2) 
FROM sample_table 
GROUP BY F1

Leider ist es entfernt auch doppelte Elemente und ich denke, dies nicht das gewünschte Verhalten. Ich finde es seltsam, dass collect_set existiert, aber keine Version, um Duplikate zu halten. Someone else apparently thought the same thing. Es sieht so aus, als ob die oberste und zweite Antwort Ihnen den UDAF geben wird, den Sie brauchen.

Quelle

2013-05-08 19:23:45

In Hive 0.13 gibt es eine Funktion 'collect_list', die Duplikate zurückgibt. –

collect_set funktioniert tatsächlich wie erwartet, da ein Satz gemäß Definition eine Sammlung wohldefinierter und distinkter Objekte ist, d. H. Objekte treten genau einmal oder gar nicht innerhalb eines Satzes auf.

Quelle

2017-03-15 17:29:11 ellaqezi

Wie bekomme ich Array/Beutel mit Elementen von Hive Group nach Operator?

Antwort

Verwandte Themen