2016-04-18 5 views
-2

Ich bin etwa an einem Projekt über ‚Analyse von Daten aus Blog oder Forum‘ zu arbeiten, so frage ich mich, welche Art von Daten können wir von einem Blog zu extrahieren oder ein Forum und wie soll ichWelche Art von Daten können wir aus einem Blog oder einem Forum für ein Web-Scraping-Projekt extrahieren?

+0

Ihre Frage könnte interessant sein, aber es ist sehr vage über Details. Geht es um einen bestimmten Blog oder um alle Blogs im Allgemeinen? Suchen Sie ein Toolset oder ein bestehendes Projekt? Vielleicht beginnen Sie bei https://en.wikipedia.org/wiki/Web_scraping? – qux

+0

Ich spreche über jeden Blog im Allgemeinen und auf der Suche nach einem Toolset, danke –

+0

Sie lösen das Problem in genau entgegengesetzter Richtung. Suchen Sie nicht nach einer Art von Daten, sondern beheben Sie, worüber Sie etwas erfahren möchten. Dann sammeln Sie die erforderlichen Daten aus den Blogs dafür. – displayName

Antwort

0

Zuerst beginnen, sollten Sie Entscheiden Sie, welche Programmiersprache verwendet werden soll. Dann sollten Sie einen Webschaber in Betracht ziehen.

Es gibt verschiedene für verschiedene Programmiersprachen. Für Java gibt es zum Beispiel jsoup.

Um herauszufinden, welche Daten erhalten werden können, müssen Sie zuerst das Format der Seite betrachten. Aber Daten, die ich sammeln würde empfehlen, bestehen aus:

Benutzername Fotos auf der Website Daten zum Benutzername (Anmeldedatum, Anzahl der Beiträge, Premium Mitglied Status, Foto, Telefonnummern, E-Mail-Adressen, vollständiger Name, Adresse, etc. (falls zutreffend)), Titel der Blog-Beiträge, Fragen in den Foren gestellt, Anzahl der Antworten für jede Frage, Tippfehler im Blogpost, Datum bezogene Informationen.