2016-07-09 17 views
0

Ich muss HTTP-Header von den analysierten Webseiten in Java entfernen.Wie HTTP-Header aus CURL-Antwort in Java entfernen

HTTP/1.1 404 Not Found 
    Date: Wed, 28 Oct 2009 14:10:05 GMT 
    Server: Apache/2.2.11 (Unix) mod_ssl/2.2.11 OpenSSL/0.9.8i DAV/2 mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635 
    Last-Modified: Tue, 02 Jun 2009 17:40:52 GMT 
    ETag: "18ac11-d16-46b610b465100" 
    Accept-Ranges: bytes 
    Content-Length: 3350 
    Connection: close 
    Content-Type: text/html 
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> 
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"> 
<head profile="http://gmpg.org/xfn/11"> 
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 

Wie oben gezeigt, sind die ersten paar Zeilen http-Header. Ich muss sie loswerden, um geparste Seiten zu verarbeiten, aber dann bin ich nicht sicher, wie es geht, da die Header in Länge und Inhalt variieren.

Könnte jemand bitte mir dabei helfen?

+0

Hinweis: HTTP-Header am Ende mit '\ r \ n \ r \ n ' – tkausl

+0

Haben Sie ROTATION verwenden, um die Daten zu lesen? –

+0

Danke, aber ich kann die Strings nicht einfach mit \ r \ n \ r \ n loswerden, da der Inhalt sie auch haben könnte. Kann ich vermeiden, bei der Verwendung von Regex einige Inhalte zu verlieren? –

Antwort

0

Sie können einfach Index von z.B. <html und substring diese Zeichenfolge.

text.substring(text.indexOf("<html")) 
+0

True für Webseiten, aber einige der analysierten Inhalte waren Bilder (rohe Bytes) und hatten keine HTML-Tags. Ich habe es geschafft, indem ich zuerst \ r \ n \ r \ n geparst habe –