2016-04-05 5 views
0

Ich versuche, die Wayback Machine (archive.org) von Archving meiner Website zu blockieren und alte Seiten aus dem Archiv zu löschen .Blockieren von Wayback Machine mit robots.txt funktioniert nur für www.domain.com und NICHT für domain.com

ich das meine robots.txt hinzugefügt habe, die in dem Root-Verzeichnis platziert (I auf Plesk ist so dass httpdocs/sein wird):

User-agent: ia_archiver 
Disallow:/

Nun ist die seltsame Sache ist .. Dies funktioniert nur für WWW.domain.com und nicht für domain.com. Ich benutze nicht die www-Domäne und alle WWW-Anfragen werden aus Gründen der Domain zu domain.com weitergeleitet. Daher ist die Domain www.domain.com jetzt nicht mehr gechartet, aber domain.com wird noch archiviert.

Fehle ich etwas?

+0

Woher wissen/testen Sie, dass es noch archiviert wird? Haben Sie in Ihren Protokollen gesehen, dass ihr Bot nach dem Besuch der aktualisierten robots.txt auf Dokumente zugegriffen hat? – unor

+0

Das sieht wie ein Fehler aus. Die Beta (https://web-beta.archive.org/) behandelt dies korrekt: Sowohl www.domain.com als auch domain.com werden blockiert, wenn sie von robots.txt dazu aufgefordert werden. Bei Verwendung der normalen Wayback-Maschine (https://archive.org/web/) wird jedoch die Domain www.domain.com blockiert, während domain.com dies nicht tut. Konnten Sie das lösen? –

Antwort

0

Scheint ein Synchronisationsproblem zu sein.

Während www.domain.com fast sofort gesperrt wird, nachdem es von robots.txt angewiesen wurde, benötigt die domain.com ein paar Stunden bis zu ein paar Tagen, bevor der Ausschluss eingehalten wird.

Die Beta (https://web-beta.archive.org/) behandelt dies richtig: sowohl www.domain.com als auch domain.com werden sofort gesperrt.