2016-07-25 26 views
5

Ich habe unter einfachen SparkR Programm, das ist ein SparkR DataFrame erstellen und Daten abrufen/sammeln von ihm.Nicht in der Lage, Daten von SparkR erstellt DataFrame

Ich bin in der Lage, es zu erstellen und Informationen erfolgreich anzuzeigen, aber jede Operation im Zusammenhang mit Abrufdaten wird unter Fehler geworfen.

16/07/25 16:33:59 TaskSetManager WARN: Verlorene Aufgabe 0,3 in Stufe 17.0 (TID 86, wlos06.nrm.minn.seagate.com): java.net.SocketTimeoutException: Akzeptiere timed out at java.net.PlainSocketImpl.socketAccept (Native Methode) bei java.net.AbstractPlainSocketImpl.accept (AbstractPlainSocketImpl.java:398) bei java.net.ServerSocket.implAccept (ServerSocket.java:530) bei java.net. ServerSocket.accept (ServerSocket.java:498) bei org.apache.spark.api.r.RRDD $ .createRWorker (RRDD.scala: 432) bei org.apache.spark.api.r.BaseRRDD.compute (RRDD .scala: 63) bei org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 306) bei org.apache.spark.rdd.RDD.iterator (RDD.scala: 270) bei org.apache.spark.rdd.MapPartitionsRDD.compute (MapPartitionsRDD.scala: 38) bei org.apache.spark.rdd. RDD.computeOrReadCheckpoint (RDD.scala: 306) bei org.apache.spark.rdd.RDD.iterator (RDD.scala: 270) bei org.apache.spark.rd.MapPartitionsRDD.compute (MapPartitionsRDD.scala: 38) bei org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 306) bei org.apache.spark.rdd.RDD.iterator (RDD.scala: 270) bei org.apache.spark.rdd. MapPartitionsRDD.compute (MapPartitionsRDD.scala: 38) bei org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 306) bei org.apache.spark.rdd.RDD.iterator (RDD.scala: 270) bei org.apache.spark.scheduler.ResultTask.runTask (ResultTask.scala: 66) bei org.apache.spark.scheduler.Task.run (Task.scala: 89) bei org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 214) bei java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1145) bei java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:615) bei java.lang.Thread.run (Thread.java:745)

16/07/25 16:33:59 FEHLER TaskSetManager: Aufgabe 0 in Stufe 17.0 schlug 4 Mal fehl; Job wird abgebrochen 16/07/25 16:33:59 ERROR RBackendHandler: dfToCols auf org.apache.spark.sql.api.r.SQLUtils ist fehlgeschlagen Fehler in InvokeJava (IsStatic = TRUE, Klassenname, Methodenname, ...): org.apache.spark.SparkException: Auftrag wegen Phasenfehlers abgebrochen: Aufgabe 0 in Stufe 17.0 ist viermal fehlgeschlagen, letzter Fehler: Task 0.3 in Stufe 17.0 verloren (TID 86, wlos06.nrm.minn.seagate.com): java.net.SocketTimeoutException: Akzeptiere timed out bei java.net.PlainSocketImpl.socketAccept (native Methode) bei java.net.AbstractPlainSocketImpl.accept (AbstractPlainSocketImpl.java:398) bei java.net.ServerSocket.implAccept (Serversocket. Java: 530) bei java.net.ServerSocket.accept (ServerSocket.java:498) bei org.apache.spark.api.r.RRDD $ .createRWorker (RRDD.scala: 432) bei org.apache.spark.api.r.BaseRRDD.compute (RRDD.scala: 63) bei org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 306) bei org.apache.spark. rdd.RDD.iterator (RDD.scala: 270) bei org.apache.spark.rdd.MapPartitionsRDD.compute (MapPartitionsRDD.scala: 38) bei org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 306) bei org.apache.spark.rdd.RDD.iterator (RDD.scala: 270) bei org.apache.spark.rdd.MapPartitionsRDD.compute (MapPar

Wenn ich es von sparkR Befehlszeile wie unten am ausführt, wird es ausgeführt zu werden.

~/Downloads/spark-1.6.1-bin-hadoop2.6/bin/sparkR --master yarn-client 

Aber wenn ich es über R bin Ausführung und sparkR. .? init ((Master = "Garn-client"), es wirft Fehler

Kann jemand bitte helfen Behebung dieser Fehler

+0

ich das gleiche Problem habe. Wie hast du es behoben? –

Antwort

5

diese Zeile Hinzufügen machte den Unterschied:

Hier
Sys.setenv("SPARKR_SUBMIT_ARGS"="--master yarn-client sparkr-shell") 

ist der vollständige Code:

Sys.setenv(HADOOP_CONF_DIR = "/etc/hadoop/conf.cloudera.yarn") 
Sys.setenv(SPARK_HOME = "/home/user/Downloads/spark-1.6.1-bin-hadoop2.6") 
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) 
library(SparkR) 
Sys.setenv("SPARKR_SUBMIT_ARGS"="--master yarn-client sparkr-shell") 
sc <- sparkR.init(sparkEnvir = list(spark.shuffle.service.enabled=TRUE,spark.dynamicAllocation.enabled=TRUE,spark.dynamicAllocation.initialExecutors="40")) 
hiveContext <- sparkRHive.init(sc) 

n = 1000 
x = data.frame(id = 1:n, val = rnorm(n)) 
xs <- createDataFrame(hiveContext, x) 

xs 

head(xs) 
collect(xs)