Identifizieren des primären Inhalts einer Seite

Angesichts einer HTML-Seite, die ein textlastiger Artikel ist, möchte ich den primären Inhalt identifizieren und analysieren.Identifizieren des primären Inhalts einer Seite

Mit http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html als Beispiel möchte ich div # post-4438372351887392855 identifizieren, die den Titel und Artikel enthält.

Ich weiß nichts kann perfekt sein oder 100% der Zeit arbeiten, aber gibt es einen Ansatz, der mir das gewünschte Ergebnis in einer angemessenen Anzahl von Umständen geben kann?

Mein aktueller Gedanke besteht darin, jedes div zu durchlaufen, das Markup zu entfernen und dann das innerste div zu finden, das den meisten Text enthält.

An diesem Punkt, ich bin gerade am Anfang, so auf der Suche nach Input kann ich in Richtung einer konzeptionellen Ansatz setzen. Oder, wenn etwas da draußen ist, wäre eine Open-Source-Bibliothek nett.

Vielen Dank im Voraus für die Erkenntnisse.

Quelle

2009-08-03 chipotle_warrior

Einige Leute bei arc90 haben mit ihrer readability bookmarklet eine ziemlich beeindruckende Arbeit geleistet. Es scheint ziemlich gut zu sein, den "Haupt" Inhalt zu finden - funktioniert auf der Seite, die Sie perfekt aufgelistet haben.
Sie können durch ihre gut kommentierte Javascript (verlinkt in der Bookmarklet), aber Sie können die Entwickler für ihre Ideen und die Erlaubnis, sie zu verwenden, kontaktieren möchten.

Quelle

2009-08-03 04:49:12

Die vollständigste zusammengestellte Liste von Ressourcen für die Hauptinhalt Extraktion sind:

Schauen Sie auch die Kommentare, da zusätzliche Tipps gibt.

Quelle

2011-12-29 18:52:47

Identifizieren des primären Inhalts einer Seite

Antwort

Verwandte Themen