Ich habe Daten in folgendem Format in Hive-Tabelle.Kombinieren von Daten basierend auf Spalte in Funke
user | purchase | time_of_purchase
Ich möchte Daten erhalten, in
user | list of purchases ordered by time
Wie kann ich dies tun in pyspark oder hiveQL?
Ich habe versucht, mit collect_list in Hive, aber es nicht die Reihenfolge korrekt durch Zeitstempel beibehalten.
Bearbeiten: Hinzufügen von Beispieldaten wie von KartikKannapur gefragt. Hier ist ein Beispieldaten
94438fef-c503-4326-9562-230e78796f16 | Bread | Jul 7 20:48
94438fef-c503-4326-9562-230e78796f16 | Shaving Cream | July 10 14:20
a0dcbb3b-d1dd-43aa-91d7-e92f48cee0ad | Milk | July 7 3:48
a0dcbb3b-d1dd-43aa-91d7-e92f48cee0ad | Bread | July 7 3:49
a0dcbb3b-d1dd-43aa-91d7-e92f48cee0ad | Lotion | July 7 15:30
Der Ausgang ich will, ist
94438fef-c503-4326-9562-230e78796f16 | Bread , Shaving Cream
a0dcbb3b-d1dd-43aa-91d7-e92f48cee0ad | Milk , Bread , Lotion
In Spark <2.0 ist es praktisch unmöglich mit DataFrames allein. – zero323
Ist es möglich, dies mit zusätzlichen Bibliotheken oder irgendeiner Art von Konvertierung zu RDD usw. zu tun. – user1411335
Sie können immer mit allen Leistungseinbußen zu RDD und groupByKey konvertieren. – zero323