storm crawler - Technologie-Stack und Apache Nutch
Ich möchte ein bestimmtes Forum in Echtzeit crawlen und die Daten in HDFS ablegen, wenn nicht Hbase. Ich hörte, Apache Nutch könnte den Zweck lösen, aber leider ist der Technologie-Stack ziemlich alt.