2009-11-10 3 views
6

Ich baue einen Hadoop (0.20.1) mapreduce Job, der HBase (0.20.1) sowohl als Datenquelle als auch als Datensenke verwendet. Ich würde gerne den Job in Python schreiben, der mich dazu gezwungen hat, hadoop-0.20.1-streaming.jar zu verwenden, um Daten zu und von meinen Python-Skripten zu streamen. Dies funktioniert gut, wenn die Datenquelle/Senke HDFS-Dateien sind.Hadoop mapreduce streaming von HBase

Unterstützt Hadoop Streaming von/nach HBase für mapreduce?

+0

Haben Sie einen Blick nahm zu Hbase + Kafka + Spark-Streaming Integration? – Mike

Antwort

1

Dies scheint zu tun, was ich will, aber es ist nicht Teil der Hadoop-Distribution. Alle anderen Vorschläge oder Kommentare sind immer noch willkommen.

http://github.com/wanpark/hadoop-hbase-streaming

+0

Haben Sie Vorschläge für meine Frage - http://stackoverflow.com/questions/10953731/calculate-tf-idf-of-documents-using-hbase-as-the-datasource – JHS