2016-08-01 12 views
2

ich einen Spark-Datenrahmen haben und ich würde durch einen Schlüssel, um die Elemente zu einer Gruppe gerne und haben die Ergebnisse als sortierte ListeSpark-Dataframe groupBy und Ergebnisse sortieren in eine Liste

Derzeit verwende ich:

df.groupBy("columnA").agg(collect_list("columnB"))

Wie mache ich die Artikel in der Liste aufsteigend sortiert?

+2

Mögliches Duplikat [Wie Datenrahmen in Funken sortieren, ohne Funken SQL zu verwenden?] (Http://stackoverflow.com/questions/29741360/how-to-sort-datenframe-in-spark-ohne-using-spark-sql) –

Antwort

12

Sie die Funktion sort_array in dem functions Paket versuchen könnten:

import org.apache.spark.sql.functions._ 
df.groupBy("columnA").agg(sort_array(collect_list("columnB"))) 
+5

Wie Elemente in 'collect_list()' nach verschiedenen Spalten in der gleichen 'df' zu sortieren? – vdep