Ich habe einen Datensatz, wiePig: Das erste Vorkommen einer Variablen in einer Gruppe (bei der Aggregation anderer Variablen)?
gr col1 col2
A 2 'haha'
A 4 'haha'
A 3 'haha'
B 5 'hoho'
B 1 'hoho'
sieht aus, als Sie in jeder Gruppe sehen können, gr
gibt es eine numerische Variable col1
und einige String-Variable col2
, die gleich in jeder Gruppe ist.
Wie kann ich den folgenden Pseudo-Code in PIG bekommen?
foreach group gt : generate the mean of col1 and get the first occurrence of col2
so würde Ausgabe aussehen
gr mean name
A 3 'haha'
B 3 'hoho'
Dank!
e Danke, danke! Könntest du einfach erklären, was der FLATTEN-Operator hier macht? –
@Noobie Es ist die Gruppe zu den Feldern gr, Name zu entkoppeln, da wir die Daten auf diesen beiden Feldern gruppiert haben.Wenn Sie don; t dann werden Sie sehen (A, 'haha') als 1 Feld. –
oh jetzt sehe ich deinen 'gr, col2' Trick. gut gespielt. Vielen Dank! –