2015-08-17 14 views
9

Ich habe ein Scrapy-Projekt mit mehreren Spinnen erstellt, um einige Websites zu crawlen. Jetzt möchte ich TOR zu verwenden:Scrapy mit TOR (Windows)

  1. Verstecke meine IP von den gecrawlt Servern;
  2. Verknüpfen Sie meine Anforderungen zu verschiedenen ips, simulieren Zugriffe von verschiedenen Benutzern.

Ich habe einige Informationen darüber, zum Beispiel lesen: using tor with scrapy framework, How to connect to https site with Scrapy via Polipo over TOR?

Die Antworten von diesen Links mir nicht geholfen waren. Welche Schritte muss ich unternehmen, damit Scrapy mit TOR richtig funktioniert?

EDIT 1:

Antwort Anbetracht 1, begann ich TOR durch die Installation. Während ich Windows verwende, habe ich das TOR Expert Bundle (https://www.torproject.org/dist/torbrowser/5.0.1/tor-win32-0.2.6.10.zip) heruntergeladen und das Kapitel über die Konfiguration von TOR als Relais gelesen (https://www.torproject.org/docs/tor-doc-windows.html.en). Leider gibt es wenig oder keine Informationen darüber, wie man es unter Windows macht. Wenn ich das heruntergeladene Archiv entpacken und die Datei Tor \ Tor.exe ausführen, passiert nichts. Ich kann jedoch im Task-Manager sehen, dass ein neuer Prozess instanziiert wird. Ich weiß nicht, wie ich von hier aus am besten vorgehen soll.

+1

Was haben Sie bereits erreicht? Was ist dein Problem? Bitte bearbeiten Sie Ihre Frage und erklären Sie uns diese, damit wir Ihnen helfen können. – GHajba

+0

Dieses Scrapy-Projekt auf Github erklärt, wie anonym Anonymously: https://github.com/WiliTest/Anonymous-scrapping-Srapy-Tor-Privoxy-UserAgent –

Antwort

3

Eine detaillierte Schritt-für-Schritt-Erklärung ist hier http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu/

Die grundlegenden Schritte sind:

  1. Installieren Tor und Privoxy (für Linux könnte dies ein Repository hinzufügen erforderlich).
  2. Konfigurieren Sie Polipo, um mit TOR über die SOCK-Verbindung zu sprechen (siehe obigen Link).
  3. Erstellen ein benutzerdefiniertes Middleware tor als HTTP-Proxy zu verwenden und den scrapy User-Agenten nach dem Zufallsprinzip
  4. von oben Beispiel
  5. zur Unterdrückung Abschreibung Warnung zu ändern, schreibt 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, statt 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,

Was ist Ihr szenario ? Haben Sie darüber nachgedacht, Proxy Server zu mieten?

+1

Dank fmp für diese Schritt-für-Schritt. Ich habe meine Frage (EDIT 1-Tag) bearbeitet und Ihre Antwort berücksichtigt. Über Ihre letzte Frage "Haben Sie darüber nachgedacht, Proxy Server zu mieten?" Warum muss ich einige Proxy-Server mieten, wenn ich meinen Scrapy-Verkehr mit TOR umadressiere? – supertreta

+0

Es tut mir leid, ich laufe nicht unter Windows. Sie müssen keine Proxies mieten, es ist eine Option für Ihre erste Frage, Ihre "echte" IP-Adresse (hinter einem Proxy-Server) zu verbergen und Ihre Anfragen verschiedenen IPs zuzuordnen (z. B. denen vom Proxy-Server). – fmp