2010-04-29 9 views
5

Ich versuche, Mahout in einer Anwendung unter Windows zu verwenden. Ich möchte Cluster aus einem Lucene-Index mit k-Mitteln aufbauen.Wie verwende ich Mahout in einer Windows-Umgebung?

Sobald ich Sequenzdateien erstellen muss (Erstellen von Vektoren aus einem Lucene-Index), bekomme ich eine Hadoop-Exception, da Hadoop Kommandozeilenaufrufe an Programme macht, die in einer Windows-Umgebung unbekannt sind (z.B. chmod). Das Ausführen von Cygwin ist keine Option, da ich die App von Eclipse aus starten möchte.

Also meine Frage ist

  • gibt es eine Möglichkeit zu vermeiden Sequenzdateien erstellen, um meine Vektoren aus einem Lucene-Index abrufen?
  • oder gibt es eine Möglichkeit, Sequenzdateien in einer Windows-Umgebung zu erstellen?
  • Antwort

    4

    Die einzige Möglichkeit, Hadoop in einer Windows-Umgebung auszuführen, besteht in der Installation von Cygwin. Weitere Informationen finden Sie in diesem Blog-Post:

    http://hayesdavis.net/2008/06/14/running-hadoop-on-windows/

    Cygwin alle Befehlszeilenprogramme zur Verfügung stellt (wie chmod), dass Hadoop basiert auf. Sie können Ihre Hadoop-Jobs weiterhin in Eclipse ausführen, wenn Sie möchten.

    +0

    Abgesagt, dies ist mehr eine Frage zu Hadoop, und nein, Sie können Hadoop unter Windows nicht ausführen. –

    +0

    HDInsight ist eine Hadoop-Implementierung für Windows Azure. Wenn Sie es auf Ihrem lokalen Computer und nicht in der Cloud verwenden möchten, verwenden Sie den HDInsight-Emulator, den Sie mit dem Web Platform Installer installieren können. – user888734

    +0

    Vielleicht möchten Sie Ihre Antwort aktualisieren, da es jetzt möglich ist, Hadop mit Windows (https://wiki.apache.org/hadoop/Hadoop2OnWindows) zu verwenden. Ich würde gerne antworten, aber ich bin immer noch auf der Suche nach einer Möglichkeit, Mahout zu verwenden :) – fxm

    1

    Kennen Sie die SequenceFile API? Sehen Sie hier: http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html Sie können versuchen, die Daten selbst zu schreiben/lesen.

    Ich denke, dass Sie Mahout von Eclipse in Windowns im Stand-Alone-Modus ausführen können. Aber Sie werden einige kurze Kommen und Barrieren erscheinen. Sie sollten versuchen, wie weit Sie kommen.

    Meiner Meinung nach sollten Sie nicht darauf bestehen, Mahout von Eclipse zu laufen. ;-)

    0

    Sie können eine virtuelle Maschine verwenden, um Ihre Hadoop-Umgebung auszuführen. Für mich ist die beste Lösung http://hortonworks.com/ Projekt zu verwenden. Alles funktioniert schön.