Extrahieren des Einleitungsteils eines Wikipedia-Artikels, von Python

Ich möchte den Einführungsteil eines Wikipedia-Artikels extrahieren (ignoriere alle anderen Dinge, einschließlich Tabellen, Bilder und andere Teile). Ich schaute auf HTML-Quelle der Artikel, aber ich sehe keine spezielle Tag, in dem dieser Teil eingewickelt ist.Extrahieren des Einleitungsteils eines Wikipedia-Artikels, von Python

Kann mir jemand eine schnelle Lösung zu diesem? Ich schreibe Python-Skripte.

dank

Quelle

2010-11-28 green-i

Wahrscheinlich möchten Sie das Wiki-Markup, nicht den HTML-Code, für diesen bestimmten Vorgang analysieren. –

können Sie mehr Details geben? Ich bin nicht vertraut mit dem Zugriff auf Wiki Markup? Wie soll ich es bekommen? Danke –

Ich glaube, Sie oft auf den Introtext durch die vollständige Seite nehmen zu bekommen, alle Tabellen Strippen, und dann für die erste Folge von <p> suchen. .. </p > Blöcke nach dem Marker. Das letzte Bit wäre diese Regex:

Mit der Option .S zu machen. Übereinstimmung mit Zeilenumbrüchen ...

Quelle

2010-11-28 03:04:40

Reguläre Ausdrücke sind keine gute Möglichkeit, HTML zu "parsen". –

Nein, aber sie sind ein zweckmäßiger Weg, wenn die Bedürfnisse einfach sind. Aber wenn Sie eine bestimmte HTML-Bibliothek Antwort bieten möchten, die hilfreicher als meine Regex ist, gehen Sie gleich weiter. –

Nun, was ist los mit Beautiful Soup? Das wäre zweckmäßiger als die Implementierung eines eigenen Ad-hoc-Parsers, der unvollständig und mit Fehlern behaftet ist. –

Sie möchten mwlib überprüfen, die wikipedia Quelle
Alternativ können Sie die wikidump lib
HTML Bildschirm durch BeautifulSoup

Ah, da Schaben zu analysieren ist eine Frage bereits zu SO zu diesem Thema:

Quelle

2010-11-28 02:48:54 pyfunc

Extrahieren des Einleitungsteils eines Wikipedia-Artikels, von Python

Antwort

Verwandte Themen