Hoffentlich bin ich dumm und das wird einfach sein.Gibt es eine Möglichkeit, ein Feld zu filtern, das in einem Spark-Dataframe mit scala nicht enthalten ist?
Ich habe ein Datenframe mit den Spalten 'URL' und 'Referrer'.
Ich möchte alle Referrer extrahieren, die die Top-Level-Domain 'www.mydomain.com' und 'mydomain.co' enthalten.
kann ich
val filteredDf = unfilteredDf.filter(($"referrer").contains("www.mydomain."))
jedoch verwenden diese die URL www.google.co.uk Suche url zieht, die auch meine Web-Domain aus irgendeinem Grund enthält. Gibt es einen Weg, mit scala in Spark, dass ich alles mit google herausfiltern kann, während ich die richtigen Ergebnisse behalte?
Dank
Dean
Es war der! $ "Referrer", den ich suchte. Ich hätte es gerade ausprobieren sollen, aber der Ansatz von Monte Carlo zum Programmieren wird langweilig und ich konnte keine Dokumentation darüber finden. Vielen Dank! – Dean
hey! Hilfe !, wie kann man das erreichen, indem man es mit einer Säule vergleicht? wie $ "referrer" .contains ($ "spalte-das-sollte-nicht-übereinstimmen") –
@ zero323 funktioniert das für bestimmte pyspark version, ich erhalte import org.apache.spark.sql.functions.not DELV_all_cleaned_df2 = DELV_all_cleaned_df.where (nicht ($ 'DELIV_LOC_DESC'.contains (ausdr))) Import org.apache.spark.sql.functions.not DELV_all_cleaned_df2 = DELV_all_cleaned_df.where (nicht ($' DELIV_LOC_DESC'.contains (expr))) ungültige Syntax (, Zeile 1) File "", line 1 import org.apache.spark.sql.functions.not ^ Syntax: ungültige Syntax verwendet –