Ich habe eine Liste von Spark-Datenrahmen mit verschiedenen Schemas. Beispiel:Funken-UDF, die unbekannte Anzahl von Spalten einnimmt
list_df = [df1, df2, df3, df4]
# df1.columns = ['a', 'b']
# df2.columns = ['a', 'b', 'c']
# df3.columns = ['a', 'b', 'c', 'd']
# df4.columns = ['a', 'b', 'c', 'd', 'e']
Nun möchte ich eine einzige UDF schreiben, die Lage in dieser Liste von Datenrahmen mit einer unterschiedlichen Anzahl von Spalten zu arbeiten.
Es gibt einen früheren Beitrag, wie man es mit scala: Spark UDF with varargs, wo das udf in einem Array von Spalten nimmt.
Aber es scheint, dass der Ansatz für Python nicht funktioniert. Irgendwelche Vorschläge?
Danke.
Vielen Dank! Es klappt. – Yiliang
Eine verwandte Frage: Gibt es eine Möglichkeit, auf die Spaltennamen innerhalb von udf zuzugreifen, so dass ich Werte aus den richtigen Feldern entnehmen kann? Vielen Dank. – Yiliang
Sie können mit Struct versuchen. – zero323