2016-04-14 6 views
0

Unsere Seite benutzt nur https, also wird alles http gezwungen, https zu benutzen. Aber es gibt immer noch einige Bots, die ihren Weg in via http erzwingen wollen.Robots.txt - erlauben Sie den Bots, nur über htts zu besuchen

Ich habe suchen, konnte aber keinen einfachen Weg finden, dies zu tun.

Also meine Frage ist, was soll ich zu robots.txt schreiben, so dass ich nur erlauben https

Antwort

0

ein harter 302 https schreiben umleiten. Wenn es einen HTTP-Bot gibt, ist es kein Suchmaschinen-Bot. Google, Yahoo und Bing akzeptieren nur https. Sie können alle anderen Bots ignorieren.

0

Wenn Sie HTTP 301 verwenden, um von HTTP zu HTTPS umzuleiten, werden fähige Bots die Umleitung bemerken (und, abhängig vom Zweck des Bot, folgen Sie ihm, aktualisieren Sie seinen Index usw.). Wenn Sie das Crawlen Ihrer HTTP-URLs nicht zulassen möchten, beachten Sie, dass Bots nicht lernen können, dass die Seiten jetzt neue URLs haben, da sie nicht darauf zugreifen dürfen, um die Weiterleitung zu bemerken (falls Sie HTTP-Links haben oder hatten)).

Wenn Sie immer noch von HTTP-URLs kriechen verbieten möchten, platzieren Sie die folgende robots.txt auf http://example.com/ (oder http://www.example.com/ oder was auch immer Ihr Gastgeber ist) und tun nicht Umleitung diese spezifische URL zu https://example.com/robots.txt.

User-agent: * 
Disallow:/