Ich benutze Curl, um Informationen aus Wikipedia zu erhalten. Bisher war es mir gelungen, grundlegende Textinformationen abzurufen, aber ich möchte sie wirklich in HTML abrufen.Informationen von Wikipedia erhalten - wie bekomme ich HTML-Formular?
Hier ist mein Code:
$s = curl_init();
$url = 'http://boss.yahooapis.com/ysearch/web/v1/site:en.wikipedia.org+'.$article_name.'?appid=myID';
curl_setopt($s,CURLOPT_URL, $url);
curl_setopt($s,CURLOPT_HEADER,false);
curl_setopt($s,CURLOPT_RETURNTRANSFER,1);
$rs = curl_exec($s);
$rs = Zend_Json::decode($rs);
$rs = ($rs['ysearchresponse']['resultset_web']);
$rs = array_shift($rs);
$article= str_replace('http://en.wikipedia.org/wiki/', '', $rs['url']);
$url = 'http://en.wikipedia.org/w/api.php?';
$url.='format=json';
$url.=sprintf('&action=query&titles=%s&rvprop=content&prop=revisions&redirects=1', $article);
curl_setopt($s,CURLOPT_URL, $url);
curl_setopt($s,CURLOPT_HEADER,false);
curl_setopt($s,CURLOPT_RETURNTRANSFER,1);
$rs = curl_exec($s);
//curl_close($s);
$rs = Zend_Json::decode($rs);
$rs = array_pop(array_pop(array_pop($rs)));
$rs = array_shift($rs['revisions']);
$articleText = $rs['*'];
jedoch der Text auf diese Weise ist nicht gut genug abgerufen angezeigt zu werden :(es ist alles in dieser Art von Format
'' 'Aix-les- Bains '' 'ist eine [[Communes of Frankreich | Gemeinde]] in der Savoie] [[Departments of France | Abteilung]] in der Region Rhône-Alpes] [[Regionen von Frankreich | Region]] im Südosten [[Frankreich]].
Es liegt in der Nähe der [[Lac du Bourget]] {{convert | 9 | km | mi | abbr = on}} auf der Schiene nördlich von [[Chambéry]].
== == History '' Aix '' leitet sich von [[Latin]] '' Aquae '' (wörtlich: "Wasser", '' CF '' [[Aix-la-Chapelle]] (Aachen) oder Aix-en-Provence (Aix-en-Provence)), und Aix war ein Bad während des Römischen Reiches (Römisches Reich ), noch bevor es Aquae Gratianae (Aquae Gratianae) zum Gedenken an Kaiser Kaiser Gratian (Kaiser Gratian) umbenannt wurde ]], wer war ermordet nicht weit entfernt, in Lyon (Lyon), in 383 (383). Zahlreiche römische bleibt erhalten. [[Bild: IMG 0109 See Promenade.jpg | miniatur | links | Lac du Bourget Promenade]]
Wie kann ich den HTML-Code der Wikipedia-Artikel erhalten?
UPDATE: Danke, aber ich bin ein bisschen neu in diesem hier und jetzt eine XPath-Abfrage auszuführen, ich versuche, [wenn auch zum ersten Mal] und scheinen keine Ergebnisse zu erhalten. Ich muss hier eigentlich ein paar Dinge wissen.
- Wie kann ich nur einen Teil eines Artikels anfordern?
- Wie bekomme ich den HTML des Artikels angefordert.
Ich ging durch diese url auf Data Mining von wikipedia - es eine Idee stellte eine zweite Anforderung an wikipedia api mit der abgerufenen wikipedia Text als Parameter zu machen, und das würde die HTML abrufen - auch wenn es nicht scheint hat Arbeit so weit :(- Ich möchte nicht den ganzen Artikel als Chaos von HTML und dump es. Grundsätzlich meine Anwendung, was es tut, ist, dass Sie einige Orte und Städte Pin auf der Karte zeigen - Sie klicken auf die Stadtmarker und es würde über Ajax Details der Stadt verlangen, in einem angrenzenden div angezeigt zu werden. Diese Information möchte ich dynamisch aus Wikipedia bekommen. Ich werde mich sorgen über den Umgang mit Artikeln, die für eine bestimmte Stadt später nicht existieren muss nur sicherstellen, dass es an dieser Stelle funktioniert.
Kennt jemand ein nettes funktionierendes Beispiel, das tut, was ich suche, d. H. Gelesen und durch ausgewählte Teile eines Wikipedia-Artikels analysiert.
Nach der URL zur Verfügung gestellt - es sagt, ich sollte die wikitext auf die wikipedia api Standort Beitrag für das geparste HTML zurückzukehren. Das Problem ist, dass wenn ich die Informationen posten werde ich keine Antwort und stattdessen einen Fehler bekomme, auf den ich keinen Zugriff habe - aber wenn ich versuche, den Wikitext als GET zu integrieren, parst es ohne Probleme. Aber es scheitert natürlich, wenn ich zu viel Text habe, um zu analysieren.
Ist das ein Problem mit der Wikipedia Api? Weil ich es seit zwei Tagen mit nichts Glück hacken werde :(
Verwenden Sie Render wie in: http://en.wikipedia.org/w/index.php?action=render&title=kirandul, um formatierten Text zu erhalten. – AgA