Wie können Crawler mit robots.txt nur auf index.php zugreifen?

Wenn ich nur Crawlern den Zugriff auf index.php erlauben möchte, funktioniert das?Wie können Crawler mit robots.txt nur auf index.php zugreifen?

Quelle

2009-10-28 todd

Ich bin neugierig, warum Sie wollen würde, dies zu tun ... würden Sie nicht wollen Crawler Index viel mehr von Ihrer Website? –

Sie können die Google Robots tool zum Auschecken verwenden. Ich würde niemals irgendwelche geheimen Verzeichnisse in die Robots-Datei einfügen, da ich annehmen würde, dass eine Zeile wie unten für bestimmte Spinnen wie Honig wäre.

Disallow: /secret

Quelle

2009-10-28 14:36:33 Janco

Versuchen Sie, die Reihenfolge der Disallow Swapping/erlauben:

User-agent: * 
Allow: /index.php 
Disallow:/

Sehen Sie diese Informationen von wikipedia:

„Doch um alle Roboter kompatibel zu sein, wenn Sie Möchten Sie einzelne Dateien in einem ansonsten nicht erlaubten Verzeichnis zulassen, müssen Sie zuerst die Direktive Allow Direktiven gefolgt von derplatzierennicht zulassen, zum Beispiel:“

http://en.wikipedia.org/wiki/Robots.txt

Noch würde ich nicht erwarten, dass es auch konsequent

Quelle

2009-10-28 14:38:00 UpTheCreek

Ja zu arbeiten, wird es funktionieren. Hier ist das Testergebnis von Google Webmaster Tool.

Url 
http://www.example.org/index.php 

Googlebot 
Allowed by line 3: Allow: /index.php 

Googlebot-Mobile 
Allowed by line 3: Allow: /index.php

Beachten Sie jedoch, dass bei dieser Konfiguration Ihrer Website Homepage wird nicht gecrawlt werden, wenn die Seite mit dem vollständigen Pfad zugegriffen wird. Mit anderen Worten, http://www.example.org/ ist verboten, während http://www.example.org/index.php zulässig ist.

Wenn Sie möchten, dass Ihre Homepage zugänglich ist, hier ist eine bessere Version Ihrer Datei.

User-agent: * 
Disallow:/
Allow: /index.php 
Allow: /$

Quelle

2009-10-30 11:44:33

Können Sie erklären, warum das/$ funktioniert oder was es tut? –

Erklärung für '/ $' kann [hier] gefunden werden (http://stackoverflow.com/a/29475539/1973409) –

User-agent: * 

Allow: /index.php 
Disallow:/

Quelle

2011-03-02 11:42:17 bulava

User-agent: * 
Allow: /$ 
Allow: /index.php 
Allow: /sitemap.xml 
Allow: /robots.txt 
Disallow:/

Sitemap: http://www.your-site-name.com/sitemap.xml

Quelle

2014-08-04 00:48:52 mRGogo

Könnten Sie Ihre Antwort ein wenig erklären? – Qix

Wie können Crawler mit robots.txt nur auf index.php zugreifen?

Antwort

Verwandte Themen