Ich bin ein H2OFrame
aus einer CSV-Datei zu lesen:Wie filtern Zeilen in H2OFrame (Scala) basierend auf einem Spaltenwert?
val h2oFrame = new H2OFrame(new File(inputCsvFilePath))
Wie kann ich ein Äquivalent eines .filter()
Operation durchführen (wie verfügbar für Spark DataFrame
oder RDD
). Zum Beispiel, wie bekomme ich eine neue H2OFrame
wo "Label" (was ist ein Spaltenname) ist >1
?
Ich habe versucht, wie unten auf ein org.apache.spark.sql.DataFrame
Umwandlung (vereinfachtes Beispiel):
val df = asDataFrame(h2oFrame)
val dff = df.filter(s"label > 1")
print(dff.toString(0,15))
Aber das scheint OutOfMemoryError
wie unten zu werfen:
Ausnahme: java.lang.OutOfMemoryError vom geworfen UncaughtExceptionHandler im Thread "Executor Taskstart Worker-2"
Okay, sieht aus wie die 'OutOfMemoryError' kann durch Erhöhung' -XX gelöst werden. Möchte immer noch eine Antwort auf die ursprüngliche Frage, wie man es direkt auf 'H2OFrame' macht. –