2016-07-29 9 views
-2

Ich bin Scraping Daten von Fußballspieler Statistiken aus dem Internet mit Python und Beautiful Soup. Ich werde von mehreren Quellen scrapen, und jede Quelle wird eine Vielzahl von Variablen über jeden Spieler haben, die Strings, Integer und Booleans enthalten. Zum Beispiel Spielername, Position entworfen, Pro-Bowl-Pick (y/n).Beste Möglichkeit, Daten in Python für die Analyse zu speichern

Schließlich möchte ich diese Daten in ein Data-Mining-Tool oder ein Analyse-Tool legen, um Trends zu finden. Dies muss durchsucht werden können und ich muss in der Lage sein, Daten zu den Informationen eines Spielers hinzuzufügen, wenn ich in einer anderen Reihenfolge von einer neuen Quelle schabe.

Welche Techniken sollte ich verwenden, um die Daten zu speichern, so dass ich sie am besten hinzufügen und später analysieren kann?

+0

eine Datenbank. Viel Glück. – shellter

+0

Nein, eine CSV-Datei. Das ist das eine Format, das alle Data Mining-Tools gut lesen können. –

Antwort

4

Verwenden Sie einen mehrschichtigen Ansatz: Herunterladen, Analysieren, Speichern, Analysieren.

Die Schichten trennen. Am wichtigsten ist, dass Sie nicht nur Daten herunterladen und dann im endgültigen geparsten Format speichern. Du wirst unweigerlich merken, dass du etwas verpasst hast und es noch einmal abkratzen musst. Verwenden Sie etwas wie requests + requests_cache (Ich fand, dass die Erweiterung und Speichern auf dem Dateisystem ist bequemer Scraped HTML als das Standard-Sqlite-Speicher-Backend untersuchen).

Für die Analyse verwenden Sie bereits schöne Suppe, die gut funktioniert.

Für die Speicherung & Analyse eine Datenbank verwenden. Vermeiden Sie die Versuchung, mit NoSQL zu arbeiten - sobald Sie aggregierte Abfragen ausführen müssen, werden Sie es bereuen.