Ich stieß auf Scrapy mit der Anforderung des Crawlens und Kratzen beide. Aber je nach Anwendungserfordernis habe ich mich entschieden, nicht mit dem monolithischen Ansatz zu gehen. Alles sollte service-basiert sein. Also habe ich beschlossen, zwei Dienste zu entwerfen.Scrapy: Schrott Artikel aus HTML und nicht aus URL
- Erhalten Sie alle URLs und HTML. Hochladen auf s3.
- Schrott Elemente aus HTML
Warum? Einfach, heute habe ich beschlossen, 10 Artikel daraus zu verschrotten, morgen möchte ich 20 (Bewerbungsvoraussetzung) verschrotten. In diesem Fall möchte ich nicht URL und HTML erneut crawlen, da html gleich ist (es werden nur Blogseiten gecrawlt, in denen nur Kommentare hinzugefügt werden und Inhalt bleibt per URL gleich).
Der erste Service würde auf Scrapy basieren. Ich habe gesucht, ob wir dasselbe für Scraping verwenden könnten, wenn wir HTML anstelle von Start-URL zur Verfügung stellen können oder wir müssen mit BeatifulSoap oder einer anderen Scraping-Bibliothek gehen.
Wenn sich Ihre HTML-Quellen gespeichert auf s3 Sie noch scrapy verwenden können, um sie herunterzuladen und zu kriechen sie asynchron :) – Granitosaurus