2016-08-07 35 views
2

Ich habe ein Problem wie folgt. Ich habe Tweepy verwendet, um +10000 Tweets zu sammeln, ich benutze die naive-bayes-Klassifizierung von nltk und filterte die Tweets in +5000. Ich möchte ein Diagramm der Benutzerfreundschaft von diesem klassifizierten 5000 Tweet generieren. Das Problem ist, dass ich es mit tweepy.api.show_frieship() überprüfen kann, aber es dauert so viel und viel Zeit und irgendwann endete mit endlosen Rate limit Fehler.Der effizienteste Weg, Twitter Freundschaft zu überprüfen? (über 5000 Scheck)

ist es eine Möglichkeit, die Freundschaft eficiently mehr überprüfen können?

Antwort

0

Ich weiß nicht viel über die Grenzen mit Tweepy, aber Sie können einen einfachen Web-Schaber mit urllib und BeautifulSoup zu tun, damit immer schreiben.

Sie könnten eine Website nehmen wie www.doesfollow.com was erreicht, was Sie zu tun versuchen. (Ich bin mir nicht sicher, ob mit dieser Seite ein Anforderungslimit besteht, aber es gibt Dutzende anderer Websites, die dasselbe tun.) Diese Website ist interessant, weil die URL sehr einfach ist.

Zum Beispiel, um zu überprüfen, ob Google und Twitter sind „Freunde“ auf Twitter, ist die Verbindung einfach www.doesfollow.com/google/twitter.

Dies würde es sehr einfach für Sie durch die Benutzer laufen, wie Sie nur die Benutzer an die URL anhängen wie 'www.doesfollow.com/'+ user1 + '/' + user2

Die Ergebnisseite von doesfollow Diesen Tag hat, wenn die Benutzer Freunde auf Twitter sind:

<div class="yup">yup</div>,

und dieser Tag, wenn die Benutzer sind keine Freunde auf Twitter:

<div class="nope">nope</div>

Sie könnten also den Seitenquellcode analysieren und suchen, um herauszufinden, welche dieser Tags existieren, um festzustellen, ob die Benutzer Freunde auf Twitter sind.

Dies ist möglicherweise nicht die Möglichkeit, dass Sie das Problem nähern wollten, aber es ist eine Möglichkeit. Ich bin mir aber nicht ganz sicher, wie ich mich dem graphischen Teil Ihrer Frage nähern soll. Ich müsste mich darum kümmern.

+0

, wie ich diese bekommen (yup/Nö) Daten aus dem Web mit Python? diese Webseite hat nicht json ... –

+0

@drizzersilverberg Klicken Sie mit der rechten Maustaste auf die Seite und klicken Sie auf Seitenquelle anzeigen – Harrison