2016-05-06 15 views
0

Ich nehme an kleinen Datenanalyse-Wettbewerb in unserer Schule teil.
Wir verwenden tragbare Geräte von Fitbit, die von jedem Wettbewerbsteilnehmer ausgeliehen werden.
Für 2 Monate während des Wettbewerbs, sie gehen und schlafen mit diesem kleinen Gerät 24/7,
erlauben es, Daten über die Anzahl der Teilnehmer mit Herzfrequenz (bpm), etc.
sammeln und wir müssen einige Probleme zu lösen basierend auf diesen Daten
wie, beispielsweiseAnalyse Fitbit gehen und schlafen Daten

  • die Beziehungen zwischen den regnerischen Tagen und Teilnehmer Teilnehmer Rate das Diagramm mit ausarbeitet,

ich denke Zweck Problem ist,
wegen des Regens wird erwartet, dass viele Teilnehmer zu Hause sind.
können Sie einige Ursache und Wirkung numerisch anzeigen?

Ich studiere jetzt Python-Bibliothek numpy, Pandas mit Ipython-Notebook.
aber immer noch habe ich keine Ahnung über die Lösung dieser Probleme ..
könnten Sie empfehlen, einige Projekte oder Websites für Referenzen verwenden? ich wirklich gespannt, diesen Wettbewerb zu gewinnen. :(
und schließlich, sorry für mein schlechtes Englisch.

Danke.

+0

Können Sie ein [minimales, vollständiges und überprüfbares Beispiel] (http://stackoverflow.com/help/mcve) hinzufügen? – jezrael

Antwort

2

, die ein Spaß-Projekt ist. Ich arbeite an etwas Art ähnlich.

Hier ist, was Sie tun müssen:.

  • die fitbit API lernen und die Daten aus dem fitbit Beschleunigungsmesser und Gyroskop streamen Wenn Sie dies mit Herzfrequenzdaten, groß kombinieren Je mehr Arten von Daten, die Sie haben. der mor e effektiv Ihr Algorithmus wird sein. Sie können diese Daten in einer einfachen CSV-Datei speichern (es wird empfohlen, die Beschleunigungs-/Kreiseldaten mit 50 Hz zu streamen). Oder Setup einen Web-Server und speichert sie in einer Datenbank für den einfachen Zugriff

  • Erfahren Sie, wie Pandas verwenden und

  • scikit lernen [optional aber empfohlen]: Lernen matplotlib, so dass Sie Sie Daten grafisch darstellen können und ein Gefühl dafür bekommen wie es aussieht

  • Laden Sie die Daten in Pandas und erstellen Sie Features auf den Daten - insbesondere mit 1-2 Sekunden Sliding Window-Analyse mit 50% Überlappung. Zu den guten Eigenschaften gehören (für alle drei Accel X, Y, Z): Max, Min, Standardabweichung, Effektivwert, Wurzelquadrat und Tilt. Polynome werden helfen.

  • Da dies ein überwachtes Klassifizierungsproblem ist, müssen Sie einige beschriftete Daten erstellen - tun Sie dies manuell (Status 1 = Regentag, Status 2 = Nicht-Regentag) und trainieren Sie dann einen Klassifizierungsalgorithmus. Ich würde einen random forest

  • -Test unter Verwendung von unmarkierten Daten empfehlen - vergessen Sie nicht cross validation

Voila zu verwenden, haben Sie nun ein sehr genaues Modell und werden den Wettbewerb gewinnen.Außerdem hast du eine Menge cooler Python und Maschinen lernen gelernt.

Weitere Anleitungen, wie all dieses Zeug funktioniert, würde ich empfehlen, die Kaggle tutorial projects

BONUS: Wenn Sie es auf eine neue Ebene nehmen möchten, können Sie beginnen, Glätter auf Ihre Klassifikator hinzufügen, für Beispiel unter Verwendung eines versteckten Markov-Modells, wie in this talk

erklärt BONUS 2: Gehen Sie einen PhD in der menschlichen Tätigkeitserkennung.

+0

BONUS 2 ist nett :) – jezrael

+0

Sollte es nicht umgekehrt sein (d. H. Die Workout Rate der Leute mit den Wetterbedingungen vorhersagen)? – ayhan

+0

Ich denke, Sie könnten es so oder so strukturieren - der Grund, warum ich auf diese Weise antwortete ist, dass das interessantere Problem (für mich) die Verwendung der Fitbit-Daten als Ihr Klassifikationsalgorithmus ist. Ja, stattdessen könntest du alle Wetterdaten laden - Barometerwerte, Min/Max-Temperaturen, Feuchtigkeit, all das Zeug. Könnte auch Spaß machen. –