Ich versuche, in HBase (Version 1.1.X) einige XML-Dateien lokal gespeichert.Richtige Möglichkeiten zum Einfügen von XML in HBase
Mein Ziel ist es, den Inhalt dieser XML-Dateien in meiner HBase-Tabelle als Zeichenfolge mit MapReduce (keine Stufe) zu speichern, ohne sie in HDFS zu laden.
Hier ist mein Pseudo-Code:
fetchXMLs(path);
XML2OneLineFile();
configureHBase(); // + establishing connection
Map(input, output); //input: one XML file in one line; output : is the Put() of HBase;
closeConnection();
Ist auf diese Weise das Problem richtig anzugehen, oder gibt es bessere Möglichkeiten, es zu tun?
ps: Ich möchte keine Daten aus meinem XML analysieren oder extrahieren, sondern nur speichern.
Vielen Dank im Voraus
tatsächlich sind meine XMLs nicht groß, aber zahlreich; In anderen Worten, ich werde eine Menge kleiner XML-Dateien (etwa 90.000 Dateien, die von 80 KB bis 500 KB variieren) in kurzer Zeit speichern müssen. – mttb12
dann sollte Hbase in Ordnung sein, wenn Sie den Inhalt dieser Dateien nicht scannen müssen, ist es in Ordnung, den Inhalt nur in Spaltenattributen auszugeben. Es wird jedoch Ihre Scans verlangsamen (da es den gesamten Inhalt jeder Datei scannen muss). Wie müssen Sie auf die Daten zugreifen? – Whitefret
Daten werden von gezielten Zugriffen auf bestimmte (selten alle) Datensätze in meiner Hbase-Tabelle abgerufen. Ist die Idee, Dateien in HDFS zu laden, immer noch korrekt? – mttb12