2008-11-12 7 views

Antwort

8

Für so etwas wie Twitter, befinden Sie sich eine Menge Zeit durch nicht das Rad neu erfinden speichern. Versuchen Sie eine Bibliothek wie python-twitter. Auf diese Weise können Sie Ihr Skript oder sogar eine vollständige Anwendung schreiben, die mit Twitter verbunden ist, und Sie müssen sich nicht um die Implementierungsdetails kümmern.

Wenn Sie Ihre eigene Interface-Bibliothek zu rollen, Sie gehen mit urllib und je nach vertraut zu haben, zu bekommen, was Format sie Ergebnisse liefern, entweder lxml (oder einen anderen XML-Parser) oder simplejson.

+1

+1 Simplejson ist eine wichtige Komponente hier. –

+2

urllib, lxml und simplejson klingen wie die Werkzeuge, die ich brauche. Vielen Dank! –

+0

@Rich: wenn du das hilfreich findest, dann weißt du was du machen musst ... wink wink nudge stupsen –

2

Python hat ein sehr schönes httplib Modul sowie ein URL-Modul, das zusammen wahrscheinlich die meisten erreichen, was Sie brauchen (zumindest in Bezug auf die wget-Funktionalität).

4

Ich empfehle von ganzem Herzen mechanize für Python. Es ist genau ein programmierbarer Webbrowser, den Sie von Python aus verwenden können, der auch Formulare und Cookies verarbeitet! Es macht jede Art von Website-Crawling zum Kinderspiel.

Werfen Sie einen Blick auf die Beispiele auf diesem Link, um zu sehen, was es tun kann.

+0

Mechanize ist ideal für Situationen, in denen Sie keine API haben, aber das OP spezifiziert eine Seite wie Twitter, die eine API hat, also ist urllib2 normalerweise der Weg zu gehen. – bouvard

+0

ah, ich habe nicht genau verstanden, was du mit "hat eine API" meinst - aber du meinst, dass es eine umfassende Möglichkeit hat, über URLs mit ihm zu kommunizieren. in diesem Fall, ja, urllib2 sollte ausreichen. – Claudiu

+0

"Es macht jede Art von Site Crawling ein Kinderspiel." - außer, wo die Website Cookie-Werte über JavaScript setzt und sich auf sie verlässt, wie ich zu meinem Leidwesen finde. –

0

Wenn Sie daran gewöhnt sind, mit cURL umzugehen, betrachten Sie PycURL.