2016-05-30 15 views
0

Ich möchte beginnen, ein Empfehlungssystem für große Daten zu entwickeln, sagen 2 GB Log-Daten pro Tag. Zu diesem Zweck, zwischen Rhadoop und Apache Mahout, welches ist bevorzugt?RHadoop vs Apache Mahout

Bitte beantworten Sie diese Frage aus verschiedenen Aspekten, wie z. B. Verfügbarkeit von Codes, Geschwindigkeit, etc.

Antwort

1

Wenn Sie R wissen und Ihre Daten sind nicht so groß versuchen Sie SparkRR aber die meisten der großen R-Paket-Sammlung ist nicht gut mit Spark verteilte Daten integrieren.

Wenn Sie große Daten haben, die mit einer R-like Scala API ok sind, dann ist Mahout besser. Sie können Ihre Berechnungen an Beispieldaten bearbeiten, und derselbe Code wird automatisch auf die Produktionsgröße skaliert.