2016-04-18 17 views
2

Ich versuche diese marklogic Zündkerze Tutorial. https://developer.marklogic.com/blog/marklogic-spark-example Ich konnte dies ausführen. Was ich gefunden habe, ist, dass es standardmäßig die Dokumenten-Datenbank auswählt.Wie übergebe ich uri & database name an marklogic spark connector?

Frage ist:

Gegeben Code wie folgt aussieht:

JavaPairRDD<DocumentURI, MarkLogicNode> mlRDD = context.newAPIHadoopRDD(hdConf, Configuration DocumentInputFormat.class, InputFormat DocumentURI.class, Key Class MarkLogicNode.class, Value Class); 

Ich habe mich gefragt, wie ich die spezifischen Dokument-URI und Datenbank passieren kann nur ein bestimmtes Dokument in einer Datenbank zu erhalten. Zum Beispiel; Dokumentendatenbank mit XML-Dateien, die beim Importieren einer CSV-Datei erstellt wurden. Erwähnt unten: Marklogic : Multiple XML files created on document on importing a csv. How to get root Document URI path? Kann jemand einen Beispielcode teilen, wie man den Dokument-URI und den Datenbanknamen als Parameter übergibt?

Antwort

0

Das Beispiel verwendet den Hadoop Connector.

Mit MarkLogic 8, glaube ich, können Sie die Datenbank wie folgt einstellen: com.marklogic.output.Datenbankname in der Jobkonfiguration.

http://docs.marklogic.com/guide/mapreduce/quickstart#id_38329

+0

Vielen Dank für die schnelle Antwort. Ich habe gesehen, dass es einen Hadoop-Anschluss verwendet. Ich habe es versucht. Aber ich versuche zu erreichen ist, lesen Sie einfach ein bestimmtes Dokument aus einer bestimmten Datenbank. Als ich eine Dummy.csv-Datei mit 1000 Datensätzen geladen habe, habe ich 100 XML-Dateien in der Dokumentendatenbank mit meinen anderen Beispiel-XML-Dateien erstellt. Ich wollte nur die spezifischen dummy.csv XML-Dateien aus der dcoument-Datenbank lesen. Der aktuelle Code ruft standardmäßig alle Dokumente aus der Dokumentendatenbank ab. Ich versuche herauszufinden, wo ich meinen Code ändern kann. Vielen Dank für Ihre Hilfe zu diesem Thema. – happybayes

1

Wenn Sie die Dokumentation zu Marklogic Connector for Hadoop beziehen, speziell Input Configuration Properties - Sie finden das Hotel mapreduce.marklogic.input.documentselector finden, die den Pfadausdruck XQuery nimmt, die erlaubt Sie können einzelne Dokumente aus der Datenbank auswählen.