Ich versuche den quickstart von hier: http://datafu.incubator.apache.org/docs/datafu/getting-started.html Ich habe fast alles versucht, aber ich bin mir sicher, dass es meine Schuld irgendwo sein muss. Ich habe bereits versucht:apache PIG mit datafu: Kann UDF nicht lösen
- Export PIG_HOME, CLASSPATH, PIG_CLASSPATH
- Schwein beginnend mit -cpdatafu-Schwein-Inkubations-1.3.0.jar
- Registrierung datafu-Schwein-Inkubations-1.3.0.jar lokal und in hdfs => beide erfolgreich (zumindest kein Fehler gezeigt) nichts half
Der Versuch, diese auf Schwein:
register datafu-pig-incubating-1.3.0.jar
DEFINE Median datafu.pig.stats.StreamingMedian();
data = load '/user/hduser/numbers.txt' using PigStorage() as (val:int);
data2 = FOREACH (GROUP data ALL) GENERATE Median(data);
oder direkt
data2 = FOREACH (GROUP data ALL) GENERATE datafu.pig.stats.StreamingMedian(data);
ich diese Namen-resolve Fehler:
2016-06-04 17:22:22,734 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1070: Could not resolve datafu.pig.stats.StreamingMedian using imports: [, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.] Details at logfile: /home/hadoop/pig_1465053680252.log
Als ich den datafu-Schwein-Inkubations-1.3.0.jar schauen hinein OK sieht, alles an seinem Platz. Ich habe auch einige Bag-Funktionen ausprobiert, der selbe Fehler dann. Ich denke, es ist eine Art Noob-Fehler, den ich einfach nicht sehe (da ich keine spezifischen Antworten für Datafu in SO oder Google gefunden habe), also bedanke mich im Voraus dafür, etwas Licht in diese Sache gebracht zu haben.
Bitte bedenken Sie, dass Sie den Titel und den Text Ihrer Frage bearbeiten können. Versuchen Sie, die Dinge zu vereinfachen – Trix
Korrigiert die Formatierung jetzt, sorry für das –
Nur zur Bestätigung: Wenn Sie grundlegende Schweine-Funktionen (wie SUM) verwenden, funktioniert alles, und wenn Sie eine Datafu-Funktion verwenden nichts funktioniert? –