Die Hauptsprache für das Projekt scheint ein wichtiger Faktor zu sein.
Wennpyspark
ist eine gute Möglichkeit für Sie Funken zu verwenden (was bedeutet, dass Sie Funken von Python zugreifen) R durch rpy2
Zugriff soll nicht viel Unterschied machen, verwenden andere Python-Bibliothek mit einer C-Erweiterung.
Es gibt Berichte von Benutzern dabei (wenn auch mit gelegentlichen Fragen wie How can I partition pyspark RDDs holding R functions oder Can I connect an external (R) process to each pyspark worker during setup)
Wenn R Ihre Hauptsprache ist, die SparkR Autoren mit Feedback oder Beiträge zu helfen, wo Sie es fühlen, sind Einschränkung Weg sein würde gehen. Wenn Ihre Hauptsprache Scala ist, sollte rscala
Ihr erster Versuch sein. Die Kombination pyspark + rpy2
scheint am "etabliertesten" zu sein (wie in "verwendet die älteste und wahrscheinlich am meisten erprobte Codebase"), dies bedeutet jedoch nicht notwendigerweise, dass es die beste Lösung ist (und junge Pakete können sich schnell entwickeln). . Ich würde zuerst prüfen, welche Sprache für das Projekt bevorzugt wird und Optionen von dort ausprobieren.
Denken Sie, dass OpenCPU keine gute Option ist? –
@CafeFeed Ich habe keine Erfahrung damit. – lgautier