2009-01-22 9 views
14

Ich denke über hadoop mit großen Textdateien auf meinem vorhandenes Windows 2003 Server (etwa 10 Quad-Core-Maschinen mit 16 GB RAM)Hadoop auf Windows-Server

Die Fragen zu verarbeiten sind:

  1. Gibt es eine gute Anleitung zur Konfiguration eines Hadoop-Clusters unter Windows?

  2. Was sind die Anforderungen? java + cygwin + sshd? Noch etwas?

  3. HDFS, spielt es nett auf Windows?

  4. Ich möchte Hadoop im Streaming-Modus verwenden. Irgendwelche Ratschläge, Tools oder Tricks, um meine eigenen Mapper/Reducer in C# zu entwickeln?

  5. Was verwenden Sie zum Senden und Überwachen der Jobs?

Dank

+3

So etwas wie vmware Instanzen von Linux auf Windows läuft möglicherweise weniger schmerzhaft als zu verwenden versuchen, Windows direkt –

Antwort

9

Vom Hadoop documentation:

Win32 als Plattform Entwicklung unterstützt. Der verteilte Betrieb hat wurde nicht gut auf Win32 getestet, so dass es nicht als Produktion Plattform unterstützt wird.

Was ich denke übersetzt zu: "Du bist auf dich allein gestellt."

Das heißt, es könnte die Hoffnung sein, wenn Sie nicht mulmig sind über Cygwin und eine Java-Shim installieren, nach der Getting Started page of the Hadoop wiki:

Es ist auch möglich, die Hadoop Daemons als Windows-Dienste laufen mit der Java Service Wrapper (Download dies separat). Dies erfordert immer noch Cygwin als Hadoop installiert werden benötigt seinen df-Befehl.

Ich denke, die Quintessenz ist, dass es nicht unmöglich klingt, aber Sie würden den ganzen Weg stromaufwärts schwimmen. Ich habe jetzt ein paar Hadoop-Installationen (auf Linux für die Produktion, Mac für den Entwickler) gemacht, und ich würde mich nicht mit Windows befassen, wenn es auf anderen Plattformen so einfach ist.

+0

Lieber zustimmen, ich habe Hadoop unter Windows installiert und es ist nicht so einfach, musste einige böse Java-Fehler zu lösen, um einige Knoten Bereitstellungsprobleme zu lösen, die ich niemandem empfehlen würde. Sie können dieser Anleitung folgen: [link] (http://v-lad.org/Tutorials/Hadoop/14%20-%20start%20up%20the%20cluster.html) für einen guten Cygwin-Installationsprozess, wenn Sie beginnen sauber es könnte einfacher sein. Ich habe einen Leitfaden für die Installation von Hadoop gefunden, ohne Cygwin zu benutzen (Sie müssen nur ein paar Referenzen ändern), ich kann es nicht ausgraben, aber das ist wirklich unbekanntes Gebiet. – ToOsIK

9

Obwohl nicht die Antwort, die Sie vielleicht hören möchten, würde ich sehr empfehlen, die Maschinen als, sagen wir, Linux-Servern und Betrieb von Hadoop dort umzuwidmen. Sie profitieren von Lernprogrammen, Erfahrungen und Tests, die auf dieser Plattform durchgeführt werden, und verbringen Ihre Zeit damit, Geschäftsprobleme zu lösen, anstatt operative Probleme zu lösen.

Sie können jedoch weiterhin Ihre Jobs in C# schreiben. Da Hadoop die "Streaming" -Implementierung unterstützt, können Sie Ihre Jobs in jeder Sprache schreiben. Mit dem Mono-Framework sollten Sie in der Lage sein, nahezu jeden auf der Windows-Plattform geschriebenen .NET-Code zu verwenden und unter Linux dieselbe Binärdatei auszuführen.

Sie können auch relativ einfach auf HDFS von Windows aus zugreifen. Obwohl ich die Hadoop-Dienste unter Windows nicht empfehlen sollte, können Sie den DFS-Client von der Windows-Plattform aus ausführen, um Dateien in das verteilte Dateisystem zu kopieren .

Für die Übermittlung und Überwachung von Jobs denke ich, dass Sie hauptsächlich auf sich allein gestellt sind ... Ich denke nicht, dass es für das Hadoop-Jobmanagement bereits gute Allzwecksysteme gibt.

+0

Danke für Ihre Antwort. Leider kann ich die Server nicht neu abbilden, vielleicht benutze ich einfach ein paar Linux EC2 Instanzen. Die Portierung zu Mono ist etwas knifflig, könnte funktionieren. Luca –

+0

viel Glück! der EC2-Teil sollte ziemlich einfach sein, und nach meiner Erfahrung läuft der meiste .NET-Code auf Mono, ohne sogar neu zu kompilieren - also hoffentlich wird es nicht wirklich notwendig sein, "port" –

+0

Ich denke, Cloudera hat einige Hadoop-Management-Tools ... basierend auf dem, was ich auf Youtube – LamonteCristo

2

Wenn Sie Karte suchen/reduzieren, können Sie versuchen, auf MySpace neue Karte suchen/reduzieren Framework, das auf Windows läuft http://qizmt.myspace.com/

+0

+1 für Qizmt Ref gesehen. Eine großartige Option, mit der bereits getestet wurde, nutzt seine vorhandene Infrastruktur und erfordert minimale Änderungen. –