Wir sind Studenten, die an einem Abschluss-Projekt im Zusammenhang mit der Data Science arbeiten, entwickeln wir eine Recommender Engine mit Spark mit Python (Pyspark) mit Android-Anwendung (Schnittstelle für die Benutzer) und wir haben Viele von ihnen standen vor einer Blockade, einer davon war, wie man das Spark-Skript in einer Cloud für eine schnelle Verarbeitung und Echtzeit-Ergebnisse in Betrieb halten konnte. Alles, was wir über EMR wussten, ist, dass es neuer als EC2 ist und bereits Hadoop installiert ist. Es fällt uns immer noch schwer, die Entscheidung zu treffen, was zu verwenden ist und welche Unterschiede es zwischen ihnen gibt.Spark läuft auf EC2 vs EMR
Antwort
EMR bietet eine einfach zu bedienende Hadoop/Funken als Service. Sie müssen nur die Komponenten auswählen, die Sie installieren möchten (Spark, Hadoop), ihre Versionen, wie viele Maschinen Sie verwenden möchten und ein paar andere Optionen und dann installiert es alles für Sie. Da Sie Studenten sind, nehme ich an, dass Sie keine Erfahrung mit Automatisierungswerkzeugen wie Ansible, Puppet oder Chef haben und wahrscheinlich nie einen eigenen Hadoop-Cluster unterhalten mussten. Wenn dies der Fall ist, würde ich definitiv EMR vorschlagen. Als erfahrener Hadoop/Spark Benutzer kann ich Ihnen gleichzeitig sagen, dass es seine eigenen Grenzen hat. Als ich es vor 6 Monaten benutzte, wollte ich die neueste Version von EMR verwenden (4.0 wenn ich mich richtig erinnere), weil es die neueste Version von Spark unterstützte und ich hatte wenig Probleme es für die Installation von Java 8 anstelle des mitgelieferten Java 7 anzupassen Ich glaube, es war ihre frühe Zeit, Java 8 zu unterstützen, und das sollten sie inzwischen behoben haben. Aber das ist es, was Sie mit all den "all inclusive" -Lösungen vermissen, Flexibilität, besonders wenn Sie ein erfahrener Benutzer sind.
Sie können auch flintrock auschecken, was ein schöner Python-CLI ist, um einen Spark-Cluster zu erhalten, der schnell und nahtlos auf ec2 läuft.
EMR ist einfacher, was Ihr Hauptanliegen sein sollte. EMR ist nur Hadoop läuft auf EC2, vorkonfiguriert für Sie, für ein bisschen zusätzliches Geld. –