2016-07-19 22 views
0

hallo Jungs entfernen möchte ich mit ordentlich das Ergebnis von mongoDB auf mein Projekt drucken, habe ich einige der Forschung auf scrapy (für Web-Crawler) und i zeigen das Ergebnis javamittleren Elemente auf Absatz mit Java

aber i hat Problem, das scrapy Ergebnis, wenn ich es auf meinem Projekt drucke "[ \"\\n\" , \"\\nThe \" , \" (Federal Bureau of Investigation) over a locked iPhone that belonged to one of the San Bernardino shooters may be over, but the Department of Justice (DoJ) are back in front of a judge with a similar request.\" , \"\\n\" , \"\\nThe American Civil Liberties Union (ACLU) has discovered publicly available \" , \" " worden ist

meine Frage, wie haben Idee jeden "\n" , "\n oder " , "\n" , "\n auf Absatz mit Java, oder jemand entfernen Java entfernen automatisch leeren Elementen auf mongoDB mit? Dank vor ...

hier die Einnahme meiner Programme screenshoot programs and output

+0

Können Sie Ihren Spider-Code teilen, insbesondere wie Sie Daten von Webseiten extrahieren? Es ist einfacher, auf der Spider-Ebene zu ändern, als die Daten anschließend in Java –

+0

zu reparieren. Ich frage es auf Facebook – beboy

+0

Sie könnten Ihre Lösung als Antwort posten. –

Antwort

1

Sie das Array von Strings in einer einzigen Zeichenfolge beitreten könnten und dann einen regulären Ausdruck verwenden, alle Vorkommen von „\ n“ zu ersetzen:

String paragraph = String.join(" ", mongoArray); 
paragraph = paragraph.replaceAll("\\n" ,""); 

Wenn Sie es in der Array-Form behalten möchten, können Sie dies in ähnlicher Weise tun, indem sie durch das Array iterieren:

ArrayList<String> paragraph = new ArrayList<String>(); 
for(int i = 0; i < mongoArray.length; i++) { 
    mongoArray[i] = mongoArray[i].replaceAll("\\n", ""); 
    if(mongoArray[i].length() > 0) { 
     paragraph.push(mongoArray[i]); 
    } 
} 

Auf diese Weise fügen Sie nur die Strings, die mehr als die neue Zeile enthalten, in den Absatz ArrayList ein.

+0

immer noch fehler mate -_- ich weiß nicht das problem ist auf db oder auf java .. vor den body-elementen (absatz) ich succes schneiden für titel, link, & date..aber der körper ist so anders, weil alle leeren elemente auf mongoDB – beboy

+0

bist du immer noch da @sam? – beboy