ich ein JSON-Dokument in Spark-geladen, grob, es sieht aus wie:Individuelle Verarbeitung auf Spalte in Apache Spark (Java)
df = df.withColumn("desc", df.col("fields.type_description"));
alles in Ordnung:
root
|-- datasetid: string (nullable = true)
|-- fields: struct (nullable = true)
...
| |-- type_description: string (nullable = true)
Mein DF wird es in Dreh , aber type_description
's Wert sieht wie folgt aus: "1 - My description type".
Idealerweise möchte ich, dass mein df nur den Textteil enthält, z. "Meine Beschreibungsart" Ich weiß, wie man das macht, aber wie kann ich es durch Spark schaffen?
Ich hatte gehofft, einige entlang der Linie:
df = df.withColumn("desc", df.col("fields.type_description").call(/* some kind of transformation class/method*/));
Dank!
Also was genau suchen Sie? Regexp? Teilzeichenfolge? Könnten Sie die Frage aktualisieren, um das zu berücksichtigen? – zero323
Idealerweise könnte es alles sein ... in dieser Situation würde ich mit einem Teilstring und trim (es gibt nie mehr als 2 Ziffern) ... aber ich habe andere Situationen, die interessanter sind wie Parsing, Verkettung von Werten zwischen den Spalten jorda mal anrufen, etc. – jgp