2014-11-28 6 views
6

Ich mag würde t vollständig bing Block von meiner Seite für jetzt kriechen (seine meine Seite mit einer alarmierenden Geschwindigkeit angreifen (500 GB Daten pro Monat).Block-BingBot von meiner Website kriechen

Ich habe 1000 Subdomains hinzugefügt bing Webmaster-Tools so kann ich nicht jedes einzelnen Crawling-Geschwindigkeit gehen und eingestellt. ich versucht habe, blockiert es robots.txt verwenden, aber es funktioniert nicht hier ist meine robots.txt

# robots.txt 
User-agent: * 
Disallow: 
Disallow: *.axd 
Disallow: /cgi-bin/ 
Disallow: /member 
Disallow: bingbot 
User-agent: ia_archiver 
Disallow:/
+0

Ich fand auch Bingbot dies auf vielen .. viele Websites, die ich verwaltet. Ignoriert allgemeine "*" - Regeln und alle Crawl-Verzögerungen. – WooDzu

Antwort

2

Dies wird definitiv Ihre SEO beeinflussen/Suche Ranking und wird dazu führen, dass Seiten aus dem Index fallen, so verwenden Sie bitte vorsichtig

Sie Anfragen auf dem User-Agent-String basierend blockieren können, wenn Sie das iis Rewrite-Modul installiert haben

(wenn nicht here gehen) Und dann eine Regel Ihre webconfig wie folgt hinzu:

<system.webServer> 
    <rules> 
    <rule name="Request Blocking Rule" stopProcessing="true"> 
     <match url=".*" /> 
     <conditions> 
     <add input="{HTTP_USER_AGENT}" pattern="msnbot|BingBot" /> 
     </conditions> 
     <action type="CustomResponse" statusCode="403" statusReason="Forbidden: Access is denied." statusDescription="You do not have permission to view this page." /> 
    </rule> 
    </rules> 
</system.webServer> 

Dies wird eine 403 zurückgeben, wenn der Bot Ihre Website trifft.

UPDATE

an robots.txt Blick denke ich, es sein sollte:

# robots.txt 
User-agent: * 
Disallow: 
Disallow: *.axd 
Disallow: /cgi-bin/ 
Disallow: /member 
User-agent: bingbot 
Disallow:/
User-agent: ia_archiver 
Disallow:/
+0

Danke das scheint zu funktionieren .. zumindest von bing webmaster toolbox verification. – Zoinky

+0

Kein Problem - Ich habe auch meine Antwort hinzugefügt, was ich denke, dass Ihre Robots-Datei sein sollte (die erste Nichtbeanstandung sollte "/" und nicht leer sein.) Bots nehmen sich aber Zeit, Änderungen in robots.txt-Dateien aufzugreifen wenn Sie sie über Webmaster-Tools einreichen. – Carl

+0

Der aktualisierte Roboter wird alle Crawler verbannen, denke ich. Gerade jetzt versuche ich aufzuhören, nur zu krabbeln, bis ich herausgefunden habe, warum es so sehr angreift. – Zoinky

2

Ihre robots.txt nicht korrekt ist:

  • Sie müssen Zeilenumbrüche zwischen Aufzeichnungen (ein Datensatz beginnt mit einer oder mehreren User-agent Zeilen).

  • Disallow: bingbot verbietet das Crawlen von URLs, deren Pfade mit "bingbot" beginnen (d. H. http://example.com/bingbot), was wahrscheinlich nicht das ist, was Sie wollen.

  • Kein Fehler, aber Disallow: wird nicht benötigt (wie es ohnehin der Standard ist).

So möchten Sie wahrscheinlich verwenden:

User-agent: * 
Disallow: *.axd 
Disallow: /cgi-bin/ 
Disallow: /member 

User-agent: bingbot 
User-agent: ia_archiver 
Disallow:/

Diese verbietet für "BingBot" von etwas kriechen und "ia_archiver". Alle anderen Bots dürfen alles crawlen außer URLs, deren Pfade mit /member, /cgi-bin/ oder *.axd beginnen.

Beachten Sie, dass *.axd wird nach der ursprünglichen robots.txt Spezifikation wahrsten Sinne des Wortes durch Bots interpretiert werden (so werden sie nicht http://example.com/*.axd kriechen, aber sie werden kriechen http://example.com/foo.axd). Viele Bots erweitern jedoch die Spezifikation und interpretieren die * als eine Art Wildcard.