Ich versuche, einen verallgemeinerten HTML-Parser zu erstellen, der gut auf Blog-Posts funktioniert. Ich möchte meinen Parser auf die URL des spezifischen Entries verweisen und einen sauberen Text des Posts selbst erhalten. Mein grundlegender Ansatz (von Python) bestand darin, eine Kombination aus BeautifulSoup/Urllib2 zu verwenden, was in Ordnung ist, aber es setzt voraus, dass Sie die richtigen Tags für den Blogeintrag kennen. Hat jemand bessere Ideen?Großen Parser erstellen - Relevanten Text aus HTML/Blogs extrahieren
Hier sind einige Gedanken, vielleicht könnte jemand erweitern, dass ich nicht genug Wissen/Know-how noch zu implementieren habe.
Das Unix-Programm ‚Luchs‘ scheint besonders gut Blog-Posts zu analysieren - was Parser verwenden sie, oder wie diese genutzt werden könnte?
Gibt es Dienste/Parser, die automatisch Junk-Anzeigen usw. entfernen?
In diesem Fall hatte ich eine vage Vorstellung, dass es eine gute Annahme sein kann, dass Blogposts normalerweise in einem bestimmten definierenden Tag mit class = "entry" oder ähnlichem enthalten sind. Daher ist es möglich, einen Algorithmus zu erstellen, der die umschließenden Tags mit dem saubersten Text zwischen ihnen findet - irgendwelche Ideen dazu?
Vielen Dank!
Lynx verwendet einen eigenen Tagsoup-Parser. Der Quellcode ist verfügbar. – Quentin