Zu Vergleichszwecken angenommen, wir haben eine Tabelle "T" mit zwei Spalten "A", "B". Wir haben auch einen hiveContext in einer HDFS-Datenbank. Wir machen einen Datenrahmen:Spark DataFrame vs sqlContext
In der Theorie, welche der folgenden ist schneller:
sqlContext.sql("SELECT A,SUM(B) FROM T GROUP BY A")
oder
df.groupBy("A").sum("B")
wo "df" ein Datenrahmen zu T. Für diese einfache Art bezieht, ist von aggregierten Operationen, gibt es irgendeinen Grund, warum man eine Methode der anderen vorziehen sollte?