2015-05-07 7 views
5

Ich habe gerade angefangen, Big Data zu lernen, und zu dieser Zeit arbeite ich an Flume. Das gängige Beispiel ist die Verarbeitung von Tweets (das Beispiel von Cloudera) mit Java.Verwenden des lokalen Dateisystems als Flume-Quelle

Nur für Test- und Simulationszwecke, kann ich mein lokales Dateisystem als Flume-Quelle verwenden? insbesondere einige Excel- oder CSV-Dateien? Benötige ich neben der Flume-Konfigurationsdatei auch Java-Code, genau wie bei der Twitter-Extraktion?

Wird diese Quelle ereignisgesteuert oder abfragbar sein?

Danke für Ihre Eingabe.

+0

Ich nehme an, dass Sie eine benutzerdefinierte Gerinne Quelle machen können. Ich weiß nicht, ob es für das lokale Dateisystem bereits existiert – fdsa

Antwort

4

Ich nehme an, Sie verwenden eine Cloudera-Sandbox und sprechen darüber, eine Datei in die Sandbox lokal für den Kanalagenten zu legen, den Sie planen zu starten. Ein Gerinne Mittel enthält ein:

Quelle Kanal Sink

Diese sollten auf dem Gerinne Mittel lokale sitzen. Die Liste der verfügbaren Quellen befindet sich im Benutzerhandbuch: https://flume.apache.org/FlumeUserGuide.html. Sie können eine Exec-Quelle verwenden, wenn Sie nur Daten aus einer Datei mit einem Tail- oder Cat-Befehl streamen möchten. Sie können auch eine Spooling-Verzeichnisquelle verwenden, die das angegebene Verzeichnis nach neuen Dateien durchsucht und Ereignisse aus neuen Dateien analysiert, sobald sie angezeigt werden. Lesen Sie sich das Benutzerhandbuch durch. Enthält alles, was Sie brauchen.