2016-04-12 10 views
-1

Ich arbeite an einem Projekt, für das ich die Timelines von ungefähr 500 verschiedenen Twitter-Benutzern extrahieren möchte (ich verwende dies für die historische Analyse, also muss ich sie nur einmal abrufen - keine Notwendigkeit, mit eingehenden Tweets zu aktualisieren).Wie extrahiert man alle Tweets aus den Timelines mehrerer Benutzer mit R?

Während ich weiß, dass die Twitter-API nur die letzten 3.200 Tweets abrufen kann, wenn ich die grundlegende UserTimeline-Methode des R twitteR-Pakets verwende, scheine ich bei jedem Versuch nur etwa 20 zu holen (für Benutzer mit deutlich mehr , Aktuelle Tweets). Liegt das an der Geschwindigkeitsbegrenzung oder daran, dass ich etwas falsch mache?

Hat jemand Tipps, um dies am effizientesten zu tun? Ich weiß, dass es wegen der Begrenzung der Rate viel Zeit in Anspruch nehmen könnte, gibt es eine Möglichkeit, diesen Prozess in R zu automatisieren/zu wiederholen?

Ich bin ziemlich fest, so vielen Dank für Ihre Hilfe/Tipps, die Sie haben können!

(Ich habe Erfahrung mit dem Twitter API/twitteR-Paket, um Tweets mit einem bestimmten Hashtag über ein paar Tage zu extrahieren. Ich habe grundlegende Python-Fähigkeiten, wenn es einfacher/schneller in Python zu tun ist).

+0

Es ist wahrscheinlich wegen Paging. Sie werden nicht 3200 Tweets gleichzeitig über das Kabel senden. Ich würde vorschlagen, herauszufinden, wie die Twitter API führt Paging und dann von dort – Greg

Antwort

0

Es sieht aus wie die twitteR documentation schlägt vor, mit dem maxID Argument für die Seitenumbruch. Wenn Sie also den ersten Batch mit Ergebnissen erhalten, können Sie die Mindest-ID in diesem Set minus eins als maxID für die nächste Anfrage verwenden, bis Sie keine Ergebnisse mehr erhalten (dh, Sie sind an den Anfang der Timeline eines Benutzers gelangt). .

+0

Vielen Dank! Das ist sehr hilfreich. – letgolego