Ich arbeite an einem Projekt und ich muss eine Menge screen scraping machen, um so viele Daten wie möglich zu bekommen. Ich frage mich, ob jemand gute APIs oder Ressourcen kennt, um mir zu helfen.Web Scraping, Screen Scraping, Data Mining Tipps?
Ich benutze übrigens Java.
Hier ist, was mein Workflow bisher der Fall ist:
- Connect auf eine Website (mit Httpcomponents von Apache)
- Webseite einen Abschnitt mit einem Bündel von Links enthält, die ich besuchen müssen (unter Verwendung eingebaut Java HTML-Parser, um herauszufinden, was alle Links, die ich besuchen muss, sind, das ist lästig und chaotisch Code)
- Besuchen Sie alle Links, die ich gefunden
- Für jeden Link, den ich besuche, gibt es mehr Daten, die ich brauche extrahieren, verteilt auf mehreren Seiten, so muss ich vielleicht visi t mehr Links
Gedanken:
- Kennt jemand eine höhere Ebene/intelligentere html-Parser als die in Java eine gebaut?
- Grundsätzlich ist es eine Tiefensuche zuerst. Ich stelle mir vor, dass ich diese Multithread irgendwann machen möchte, damit ich einige dieser Links parallel besuchen kann.
- Vielleicht eine Bibliothek Crawling ist, was ich suche wirklich für multithreaded Web
Wenn Sie nicht herausgefunden haben, ist dies mein erstes Mal mit diesem Herumspielen so eine schwierige Zeit, ich habe versucht, artikulieren genau, was meine Bedürfnisse sind. Ich würde jeden Beitrag sehr schätzen, den jemand von euch, der das schon einmal gemacht hat, haben könnte.
Genau was Java-Parser verwenden Sie gerade? (Unrelated - das Java Executor Framework ist ideal für kontrollierte Parallelität) – user486972
http://stackoverflow.com/questions/7138296/how-do-i-get-the-source-of-a-iven-url-froma- servlet/7138434 # 7138434 Ich habe das gefunden. Dachte du wärst interessiert. – Srinivas
Werfen Sie einen Blick auf http://teusje.wordpress.com/tag/scrape/ es enthält Informationen darüber, wie Daten mit Powershell und Perl geschabt werden. – juFo