ich einen Spark-Prozess haben, der zur Zeit der Mongo-hadoop Brücke wird mit (von https://github.com/mongodb/mongo-hadoop/blob/master/spark/src/main/python/README.rst) die Mongo Datenbank zuzugreifen:zu Mongo mit Replik Anschluss Set und Mongo-Hadoop-Anschluss für Spark
mongo_url = 'mongodb://localhost:27017/db_name.collection_name'
mongo_rdd = spark_context.mongoRDD(mongo_url)
Die Mongo Instanz wird jetzt auf einen Cluster aktualisiert, auf den nur mit einer Replikatgruppe zugegriffen werden kann.
Wie erstelle ich eine RDD mit dem Mongo-Hadoop-Anschluss? Das mongoRDD() geht zu mongoPairRDD(), das nicht mehrere Strings aufnehmen kann.