2016-03-06 15 views
7

Es gibt einige Optionen R Bibliotheken in Funken zuzugreifen:Verwendung von R in Apache Spark

Sieht aus wie SparkR ist ziemlich begrenzt, OpenCPU erfordert zusätzlichen Service und Bindungen können sta haben Problem. Gibt es noch etwas, das spezifisch für die Spark-Architektur ist und die Verwendung einer Lösung nicht einfach macht?

Haben Sie Erfahrung mit der Integration von R und Spark, die Sie teilen können?

Antwort

4

Die Hauptsprache für das Projekt scheint ein wichtiger Faktor zu sein.

Wennpyspark ist eine gute Möglichkeit für Sie Funken zu verwenden (was bedeutet, dass Sie Funken von Python zugreifen) R durch rpy2 Zugriff soll nicht viel Unterschied machen, verwenden andere Python-Bibliothek mit einer C-Erweiterung.

Es gibt Berichte von Benutzern dabei (wenn auch mit gelegentlichen Fragen wie How can I partition pyspark RDDs holding R functions oder Can I connect an external (R) process to each pyspark worker during setup)

Wenn R Ihre Hauptsprache ist, die SparkR Autoren mit Feedback oder Beiträge zu helfen, wo Sie es fühlen, sind Einschränkung Weg sein würde gehen. Wenn Ihre Hauptsprache Scala ist, sollte rscala Ihr erster Versuch sein. Die Kombination pyspark + rpy2 scheint am "etabliertesten" zu sein (wie in "verwendet die älteste und wahrscheinlich am meisten erprobte Codebase"), dies bedeutet jedoch nicht notwendigerweise, dass es die beste Lösung ist (und junge Pakete können sich schnell entwickeln). . Ich würde zuerst prüfen, welche Sprache für das Projekt bevorzugt wird und Optionen von dort ausprobieren.

+0

Denken Sie, dass OpenCPU keine gute Option ist? –

+0

@CafeFeed Ich habe keine Erfahrung damit. – lgautier