2012-04-13 6 views
0

Bitte beschäftigen Sie sich mit dieser trivialen Frage. Es ist in Stücken auf Stackoverflow verfügbar.Effiziente Möglichkeit, HTML-Dump in der Form von Zeichenfolge zu analysieren

Ich habe HTML-Dump einer Website in Form von String. Ich möchte Text von den spezifischen Tags davon extrahieren.

In anderen Art und Weise, ich will

Document doc = Jsoup.connect(url).userAgent("Mozilla").get(); 
Elements links = doc.getElementsByTag("cite"); 

ich verwende nicht Jsoup imitieren, weil ich es auf der Website zu verbinden, nicht wollen (ich habe einen anderen Dienst für das, was HTML-Dump in Form zurück von Text). Ich habe HTMLEditorKit gefunden, um Text in HTMLDocument zu konvertieren, aber es scheint nicht sehr einfach zu sein (wie Jsoup oder HTMLParser) oder ich kann es nicht bekommen.

Jede Hilfe wäre nützlich.

Danke.

Antwort

3

Wenn Sie Jsoup verwendet haben und es noch funktionierte, sollten Sie es weiterhin verwenden.

Document doc = Jsoup.parse("<html>..."); 

sollte tun.

sehen: The API

+1

Oder genauer, 'Document doc = Jsoup.parse (myHtmlString);' – bdares

+0

@bdares Ja, danke. –

+0

Vielen Dank !! :) Ich war so dumm, das nicht zu versuchen! – instanceOfObject