Ich muss HTTP-Header von den analysierten Webseiten in Java entfernen.Wie HTTP-Header aus CURL-Antwort in Java entfernen
HTTP/1.1 404 Not Found
Date: Wed, 28 Oct 2009 14:10:05 GMT
Server: Apache/2.2.11 (Unix) mod_ssl/2.2.11 OpenSSL/0.9.8i DAV/2 mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635
Last-Modified: Tue, 02 Jun 2009 17:40:52 GMT
ETag: "18ac11-d16-46b610b465100"
Accept-Ranges: bytes
Content-Length: 3350
Connection: close
Content-Type: text/html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head profile="http://gmpg.org/xfn/11">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
Wie oben gezeigt, sind die ersten paar Zeilen http-Header. Ich muss sie loswerden, um geparste Seiten zu verarbeiten, aber dann bin ich nicht sicher, wie es geht, da die Header in Länge und Inhalt variieren.
Könnte jemand bitte mir dabei helfen?
Hinweis: HTTP-Header am Ende mit '\ r \ n \ r \ n ' – tkausl
Haben Sie ROTATION verwenden, um die Daten zu lesen? –
Danke, aber ich kann die Strings nicht einfach mit \ r \ n \ r \ n loswerden, da der Inhalt sie auch haben könnte. Kann ich vermeiden, bei der Verwendung von Regex einige Inhalte zu verlieren? –