2010-10-25 12 views
11

Was wäre der einfachste Weg, um alle Artikel über Menschen aus Wikipedia zu bekommen? Ich weiß, ich kann einen Dump von allen Seiten herunterladen, aber wie filtere ich dann diese und bekomme nur die über Leute? Ich brauche so viele wie ich kriegen kann (vorzugsweise mehr als eine Million), daher ist es wahrscheinlich keine Option, irgendeine Art von API zu verwenden.Wie bekomme ich alle Artikel über Menschen aus Wikipedia?

+0

Ich weiß wirklich nicht, wonach Sie fragen, abgesehen von über einer Million Wikipedia-Artikeln über Menschen (was kein geeignetes Thema für SO ist). –

+0

Was genau meinst du? Fragen Sie nach Tipps zur Implementierung einer Webspider? –

+0

Nein, ich glaube nicht, dass Spidering in diesem Fall angebracht ist. Es ist möglich, eine Dump-Datei von Wikipedia herunterzuladen. Die Frage ist, wie man die Dump-Datei XML filtert und nur die Seiten bekommt, die sich um Leute drehen. – Johnny

Antwort

5

Ab 2014 Sie eine andere Option haben: Abfrage WikiData für alle Unternehmen, bei denen die Eigenschaft instance of (P31) den Wert human (Q5).

Liste der Menschen: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5

Aus dieser Liste, irgend etwas herauszufiltern, die keine sex or gender (P21) hat, auf Seiten wie „Wissenschaftler“

diese Weise Sie tun loswerden nicht müssen verfolgen, welche Vorlagen für Menschen in jeder einzelnen Sprachausgabe verwendet werden (es gibt 285) von Wikipedia.