2016-05-30 8 views
1

Ich habe ein R-Skript, das mit einer Reihe von Tweets funktioniert und ich möchte das gleiche Skript für die gleichen Daten verwenden, aber in einem Hadoop-Dateisystem gespeichert. Laut this Hortonworks Tutorial könnte ich R-Code mit Daten von meinem HDFS verwenden, aber es ist nicht ganz klar.Ausführen von R-Skript auf hadoop und mapreduce

Kann ich das gleiche R-Skript verwenden, indem ich das Mapreduce-Paradigma nutze, indem ich diese Revolution R verwende? Soll ich meinen Code ändern oder gibt es eine Möglichkeit, die gleichen Funktionen auszuführen, die für eine Hadoop-Architektur optimiert sind? Mein Wunsch wäre, meinen Code auf einer Standard-R-IDE wie R-Studio zu schreiben und sie dann auf meinen Cloud-Diensten (wie Microsoft Azure) mit mapreduce auf der Basis zu verwenden oder zu verwenden.

+0

Wir bräuchten mehr über Ihr Skript wissen - viele der Textanalyse ist nur das Teilen und Zählen, was relativ einfach parallel zu machen ist, aber andere Operationen könnten ziemlich schwierig sein. –

Antwort

0

Ja, Sie können ein beliebiges R-Skript über verschiedene Datenplattformen von Hadoop bis Spark zu Teradata und SQL Server ausführen, indem Sie einen umgebungsspezifischen Compute-Kontext verwenden.

Nach zwei Links sollten Sie sich auf den Einstieg erleichtern, wie Revolution R/Microsoft R Server auf Hadoop verwenden:

https://msdn.microsoft.com/en-us/microsoft-r/scaler-hadoop-getting-started

https://github.com/Azure/Azure-MachineLearning-DataScience/blob/master/Misc/MicrosoftR/Samples/NYCTaxi/NYC2013_MRS_LinearBinary.Rmd