Ich bin neu zu funken. Ich befolge einige der grundlegenden Beispiele in der Dokumentation.Beste Vorgehensweise zum Durchschleifen einer CSV-Datei in Spark
Ich habe eine CSV-Datei wie folgt aus: (eine vereinfachte Version, die wirkliche hat fast 40.000 Zeilen)
date,category
19900108,apples
19900108,apples
19900308,peaches
19900408,peaches
19900508,pears
19910108,pears
19910108,peaches
19910308,apples
19910408,apples
19910508,apples
19920108,pears
19920108,peaches
19920308,apples
19920408,peaches
19920508,pears
Dieses Bit von scala Code funktioniert gut für die Kategorie zählen beträgt
val textFile = sc.textFile("sample.csv")
textFile.filter(line => line.contains("1990")).filter(line =>line.contains("peaches")).count()
textFile.filter(line => line.contains("1990")).filter(line => line.contains("apples")).count()
textFile.filter(line => line.contains("1990")).filter(line => line.contains("pears")).count()
Was ist der beste Ansatz zum Durchlaufen jeder Zeile, Hinzufügen von Kategorien Summen nach Jahr, so dass ich am Ende schreibe eine CSV-Datei wie folgt:
date,apples,peaches,pears
1990,2,2,1
1991,3,1,1
1992,1,2,2
date,apples,peaches,pears
1990,2,2,1
1991,3,1,1
1992,1,2,2
Jede Hilfe wäre willkommen.
Mögliche Duplikat [Pivot Spark-Dataframe] (http://stackoverflow.com/questions/30244910/pivot-spark-dataframe) – zero323