2010-11-08 13 views
7

Ich habe eine Menge Forschung, um herauszufinden, die beste Möglichkeit, eine Anwendung zu programmieren, um den Hauptartikel Inhalt von fast jeder HTML-Webseite zu bekommen. Ich habe ein C-Programm, das libxml2 verwendet, um durch das XML zu analysieren, aber ich stieß auf Alchemy API, die zu tun scheint, was ich will.HTML-Artikel Inhalt Extraktion - Alchemy API Alternative

Es hat jedoch nur eine Online-API und ich wollte die Anwendung intern halten, ohne auf externe Anrufe angewiesen zu sein.

Hat also jemand Tipps? Ich habe auf eine Offline-Alternative gehofft, die das tut, was Alchemy API kann (bezahlt/nicht bezahlt).

Meine Alternative kann sein, nur die HTML zu analysieren und NLP (Natural Language Processing) -Techniken und andere Methoden zu verwenden, um den Hauptartikelinhalt zu bekommen. Die Arten von Websites, die verwendet werden, umfassen Websites mit einem Nachrichtenbereich oder einem Blog.

+1

Ich glaube, Sie haben diese Frage falsch markiert. Der Tag "Alchemy" bezieht sich auf Adobe Alchemy. Ich nehme an, dass Sie über http://www.alchemyapi.com sprechen. – Gunslinger47

Antwort

4

Es gibt ein paar Open-Source-Tools, die ähnliche Artikelextraktionsaufgaben ausführen. https://github.com/jiminoc/goose das war Open Source von Gravity.com

Es hat Informationen über das Wiki sowie die Quelle, die Sie anzeigen können. Es gibt Dutzende von Komponententests, die den aus verschiedenen Artikeln extrahierten Text zeigen.

+0

Kennen Sie andere Alternativen ähnlich wie Gans aber in PHP? –

0

AlchemyAPI bietet auch eine On-Premise-Lösung, sodass Sie nicht online darauf zugreifen müssen. Im Allgemeinen verwenden unsere Kunden, die On-Premise-Lösungen haben, diese, wenn sie besondere Sicherheits- oder Latenzanforderungen haben. Weitere Informationen zu On-Premise-Lösungen finden Sie hier: http://www.alchemyapi.com/products/on-premise/

+0

Der Link ist jetzt ungültig; On-Premise-Lösung wird eingestellt. – Naffi