Angesichts einer HTML-Seite, die ein textlastiger Artikel ist, möchte ich den primären Inhalt identifizieren und analysieren.Identifizieren des primären Inhalts einer Seite
Mit http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html als Beispiel möchte ich div # post-4438372351887392855 identifizieren, die den Titel und Artikel enthält.
Ich weiß nichts kann perfekt sein oder 100% der Zeit arbeiten, aber gibt es einen Ansatz, der mir das gewünschte Ergebnis in einer angemessenen Anzahl von Umständen geben kann?
Mein aktueller Gedanke besteht darin, jedes div zu durchlaufen, das Markup zu entfernen und dann das innerste div zu finden, das den meisten Text enthält.
An diesem Punkt, ich bin gerade am Anfang, so auf der Suche nach Input kann ich in Richtung einer konzeptionellen Ansatz setzen. Oder, wenn etwas da draußen ist, wäre eine Open-Source-Bibliothek nett.
Vielen Dank im Voraus für die Erkenntnisse.