Obwohl MediaWiki eine API (api.php
) hat, könnte es am einfachsten für Ihre Zwecke nur den action=raw
Parameter index.php
zu verwenden, wenn Sie nur den Quellcode einer Revision abrufen möchten (nicht in XML-Datei, JSON, usw. , im Gegensatz zur API).
Zum Beispiel ist dies das rohe Wort des Tages Seite 14. November:
http://en.wiktionary.org/w/index.php?title=Wiktionary:Word_of_the_day/November_14&action=raw
Was schade ist, dass das Format der Wiki-Seiten auf Präsentation konzentriert sich (für den menschlichen Leser) und nicht auf Semantik (für die Maschine), so dass Sie nicht überrascht sein sollten, dass es keinen "get word definition" API-Befehl gibt. Stattdessen muss Ihr Skript die zahlreichen Textformatierungsvorlagen, die von Wiktionary-Editoren erstellt und verwendet wurden, sowie komplexe Formatierungssyntax für Präsentationen, einschließlich Überschriften, ungeordneter Listen und anderer, sinnvoll finden. Zum Beispiel, hier ist der Quellcode für die Seite „Überlauf“:
http://en.wiktionary.org/w/index.php?title=overflow&action=raw
Es ist eine Option in den API „XML-Parsing-Baum erzeugen“, aber es ist nicht viel von den Präsentations brechen Formatierung in XML. Sehen Sie selbst:
http://en.wiktionary.org/w/api.php?action=query&titles=overflow&prop=revisions&rvprop=content&rvgeneratexml=&format=jsonfm
Falls Sie sich fragen, ob es einen Parser für MediaWiki-Format anderen Seiten als MediaWiki existiert, nein, gibt es nicht. Zumindest nichts in JavaScript geschrieben, das derzeit gepflegt wird (siehe list of alternative parsers, und überprüfen Sie die Websites der beiden aufgeführten). Und selbst dann wird die Unterstützung der meisten/aller gängigen Vorlagen eine große Herausforderung sein. Viel Glück.
Ich glaube, dass der Inhalt des Felds "Wort des Tages" auf der Homepage manuell bearbeitet wird, um es kurz zu halten. Wenn Sie den Wortartikel öffnen, sehen Sie mehr Bedeutungen für dieses Wort. –
siehe auch http://stackoverflow.com/questions/3364279/has-anyone-parsed-wiktionary – pfctdayelise