2013-10-03 6 views
7

Hat jemand Erfahrung mit Stata und Hadoop? Stata 13 hat jetzt eine Java Plugin API, also denke ich, dass es einfach sein sollte, sie nett zu spielen.Hadoop und Stata

Ich bin besonders daran interessiert, Weblog-Daten zu parsen, um sie in eine Form zu bringen, die für statistische Analysen geeignet ist.

Diese Frage kam kürzlich on Statalist, aber es gab keine Antwort, also dachte ich, ich würde es hier versuchen, wo das Publikum eher Erfahrung mit dieser Technologie haben wird.

+0

Als lang Zeit statalist stalwart ich den Vergleich finden, obwohl gut gemeint, ein wenig gehässig. Meine Vermutung ist, dass Sie keine Antwort bekommen, weil die Antwort "Nein" ist. –

+0

@Nick Cox Ich meinte keine Beleidigung. Ich habe großen Respekt vor dem Statalist und seinen Mitgliedern. Ich werde meine peinliche Formulierung ändern. –

+0

Gut und danke. –

Antwort

1

Dimitry,

ich denke, es wäre einfacher, so etwas wie dies die ELK Stack (http://www.elastic.co) mit zu tun. Logstash (die mittlere Ebene) verfügt über mehrere Parser/Tokenizer/Analysen, die auf der Apache Lucene-Engine zum Säubern und Formatieren von Protokolldaten basieren und die resultierenden Daten in elasticsearch pushen können, wodurch eine HTTP-API bereitgestellt wird, die ziemlich leicht gelockert werden kann , benutze insheetjson und übergebe die HTTP GET Anfrage als URL und es sollte ohne viel Problem in Stata importiert werden.

Ich habe versucht, ein Programm zusammenzufügen, um die Jackson JSON-Bibliothek zu verwenden, um robustere JSON-I/O-Funktionen aus Stata heraus aufzubauen, und würde definitiv nichts dagegen haben, mit anderen zu arbeiten.

hoffe, das hilft, Billy

0

Ich nehme einen (un?) Ausgebildeten Stich dabei. Aus der Sicht der Java-API scheint der Aufrufer Stata im Wesentlichen als Datenspeicher zu behandeln. Wenn das der Fall ist, dann würde ich mir vorstellen, dass Stata als Datenbank in die Welt des Hadoops passt und auf sein eigenes InputFormat und OutputFormat zugreifen würde. In Ihrem speziellen Fall würde ich mir vorstellen, dass Sie ein StataOutputFormat schreiben würden, mit dem Ihr Reducer die geparsten Daten schreiben würde. Der einzige Nachteil scheint Ihre Kommentare verwiesen zu sein, dass Stata-Anwendungen in der Regel I/O gebunden, damit ich weiß nicht, dass die Verwendung von Hadoop wird helfen Sie wirklich da

  • Sie all diese Daten schreiben sowieso, und
  • , dass schreiben wird I/O gebunden sein, ob Sie Hadoop verwenden oder nicht.