Wenn ich nur Crawlern den Zugriff auf index.php erlauben möchte, funktioniert das?Wie können Crawler mit robots.txt nur auf index.php zugreifen?
Antwort
Sie können die Google Robots tool zum Auschecken verwenden. Ich würde niemals irgendwelche geheimen Verzeichnisse in die Robots-Datei einfügen, da ich annehmen würde, dass eine Zeile wie unten für bestimmte Spinnen wie Honig wäre.
Disallow: /secret
Versuchen Sie, die Reihenfolge der Disallow Swapping/erlauben:
User-agent: *
Allow: /index.php
Disallow:/
Sehen Sie diese Informationen von wikipedia:
„Doch um alle Roboter kompatibel zu sein, wenn Sie Möchten Sie einzelne Dateien in einem ansonsten nicht erlaubten Verzeichnis zulassen, müssen Sie zuerst die Direktive Allow Direktiven gefolgt von derplatzierennicht zulassen, zum Beispiel:“
http://en.wikipedia.org/wiki/Robots.txt
Noch würde ich nicht erwarten, dass es auch konsequent
Ja zu arbeiten, wird es funktionieren. Hier ist das Testergebnis von Google Webmaster Tool.
Url
http://www.example.org/index.php
Googlebot
Allowed by line 3: Allow: /index.php
Googlebot-Mobile
Allowed by line 3: Allow: /index.php
Beachten Sie jedoch, dass bei dieser Konfiguration Ihrer Website Homepage wird nicht gecrawlt werden, wenn die Seite mit dem vollständigen Pfad zugegriffen wird. Mit anderen Worten, http://www.example.org/
ist verboten, während http://www.example.org/index.php
zulässig ist.
Wenn Sie möchten, dass Ihre Homepage zugänglich ist, hier ist eine bessere Version Ihrer Datei.
User-agent: *
Disallow:/
Allow: /index.php
Allow: /$
Können Sie erklären, warum das/$ funktioniert oder was es tut? –
Erklärung für '/ $' kann [hier] gefunden werden (http://stackoverflow.com/a/29475539/1973409) –
User-agent: *
Allow: /index.php
Disallow:/
User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow:/
Sitemap: http://www.your-site-name.com/sitemap.xml
Könnten Sie Ihre Antwort ein wenig erklären? – Qix
Ich bin neugierig, warum Sie wollen würde, dies zu tun ... würden Sie nicht wollen Crawler Index viel mehr von Ihrer Website? –