-1
Ich bin mir bewusst, dass Sie RDDs aus Textdateien und Arrays erstellen können, aber was ist mit Datenbanken?Können Sie in Apache Spark eine RDD aus einer Datenbank (MySQL, MongoDB, etc) erstellen?
Ich bin mir bewusst, dass Sie RDDs aus Textdateien und Arrays erstellen können, aber was ist mit Datenbanken?Können Sie in Apache Spark eine RDD aus einer Datenbank (MySQL, MongoDB, etc) erstellen?
Ja, Sie können sich über Hadoop InputFormat und OutputFormat und die hadoopRDD
-Methode mit fast allem verbinden, was Hadoop konnte. Die meisten Datenquellen sind bereits für Sie in spark-packages (MongoDb zum Beispiel) erledigt. Oder, Sie können jdbc
als this answer points out
verwenden Meiner Meinung nach ist der beste Weg, mit JDBC zu lesen, wie in der Frage des Kommentars oben hingewiesen. Dann haben Sie einen DataFrame mit Ihren Daten, um ihn in RDD zu konvertieren, rufen Sie einfach '.rdd' darauf auf. –