Ich habe eine Menge Forschung, um herauszufinden, die beste Möglichkeit, eine Anwendung zu programmieren, um den Hauptartikel Inhalt von fast jeder HTML-Webseite zu bekommen. Ich habe ein C-Programm, das libxml2 verwendet, um durch das XML zu analysieren, aber ich stieß auf Alchemy API, die zu tun scheint, was ich will.HTML-Artikel Inhalt Extraktion - Alchemy API Alternative
Es hat jedoch nur eine Online-API und ich wollte die Anwendung intern halten, ohne auf externe Anrufe angewiesen zu sein.
Hat also jemand Tipps? Ich habe auf eine Offline-Alternative gehofft, die das tut, was Alchemy API kann (bezahlt/nicht bezahlt).
Meine Alternative kann sein, nur die HTML zu analysieren und NLP (Natural Language Processing) -Techniken und andere Methoden zu verwenden, um den Hauptartikelinhalt zu bekommen. Die Arten von Websites, die verwendet werden, umfassen Websites mit einem Nachrichtenbereich oder einem Blog.
Ich glaube, Sie haben diese Frage falsch markiert. Der Tag "Alchemy" bezieht sich auf Adobe Alchemy. Ich nehme an, dass Sie über http://www.alchemyapi.com sprechen. – Gunslinger47