2010-11-28 5 views
2

Ich möchte den Einführungsteil eines Wikipedia-Artikels extrahieren (ignoriere alle anderen Dinge, einschließlich Tabellen, Bilder und andere Teile). Ich schaute auf HTML-Quelle der Artikel, aber ich sehe keine spezielle Tag, in dem dieser Teil eingewickelt ist.Extrahieren des Einleitungsteils eines Wikipedia-Artikels, von Python

Kann mir jemand eine schnelle Lösung zu diesem? Ich schreibe Python-Skripte.

dank

+0

Wahrscheinlich möchten Sie das Wiki-Markup, nicht den HTML-Code, für diesen bestimmten Vorgang analysieren. –

+0

können Sie mehr Details geben? Ich bin nicht vertraut mit dem Zugriff auf Wiki Markup? Wie soll ich es bekommen? Danke –

Antwort

0

Ich glaube, Sie oft auf den Introtext durch die vollständige Seite nehmen zu bekommen, alle Tabellen Strippen, und dann für die erste Folge von <p> suchen. .. </p > Blöcke nach dem Marker. Das letzte Bit wäre diese Regex:

Mit der Option .S zu machen. Übereinstimmung mit Zeilenumbrüchen ...

+0

Reguläre Ausdrücke sind keine gute Möglichkeit, HTML zu "parsen". –

+0

Nein, aber sie sind ein zweckmäßiger Weg, wenn die Bedürfnisse einfach sind. Aber wenn Sie eine bestimmte HTML-Bibliothek Antwort bieten möchten, die hilfreicher als meine Regex ist, gehen Sie gleich weiter. –

+0

Nun, was ist los mit Beautiful Soup? Das wäre zweckmäßiger als die Implementierung eines eigenen Ad-hoc-Parsers, der unvollständig und mit Fehlern behaftet ist. –