2016-08-04 31 views
0

Angenommen, ich habe diese Dateien in hdfs VerzeichnisImplementierungsproblem in Cascading beim Lesen von Daten aus hdfs

500/Customer/part-001 
500/Customer/part-002 
500/Customer/part-003 

Kann es möglich sein, zu prüfen, aus denen Teildatei das Tupel kommt?

Hinweis: Ich habe recherchiert, aber nichts bekommen.

+0

Beispiel/Probe Tupel hinzufügen und Daten aus dieser Datei. . . –

Antwort

2

Ihre Frage ist nicht sehr klar. Angenommen, Ihre Ausgabe ist im folgenden Layout und das Trennzeichen ist ';'

id; Name, das Alter

1; Jordanien; 22

2; Nathan; 33

und so weiter

Sie könnten awk oder grep oder beide verwenden, um die Aufzeichnung zu erhalten

Wenn Sie beispielsweise nach dem Datensatz Nathan suchen möchten, versuchen Sie den Dateibefehl

grep -r "Nathan" Teil *

Der obige Befehl sucht nach der Zeichenkette "Nathan" und wenn die Zeichenkette in einer Teildatei vorhanden ist, wird der erste Eintrag (Wort) in der Ausgabe der Name der Datei sein .

, wenn Sie nicht möchten, dass Sie den Dateinamen Sie

grep -hr „Nathan“ Teil verwenden könnte *

Bitte mehr deutlich, als in Frage stellt.

0

Ich bekam Antwort, wie man von welcher Teildateitupel-Datei kommt. Ich löste mein Problem, indem ich Code unten verwendete.

String fileName = flowProcess.getProperty("cascading.source.path").toString(); 

Danke,