2008-09-04 2 views
10

Angenommen, ich habe eine Website zum Hosten von Community-Inhalten, die auf eine bestimmte Benutzergruppe ausgerichtet sind. Nun, um eine bessere Community zu schaffen, habe ich einen Off-Topic-Bereich, in dem Community-Mitglieder unabhängig vom Hauptthema der Site posten oder über alles reden können, was sie wollen.Dynamic robots.txt

Jetzt möchte ich wollen die meisten Inhalte von Google indiziert werden. Die bemerkenswerte Ausnahme ist der off-topic Inhalt. Jeder Thread hat seine eigene Seite, aber alle Threads sind im selben Ordner aufgelistet, sodass ich Suchmaschinen nicht einfach aus einem Ordner ausschließen kann. Es muss pro Seite sein. Eine traditionelle robots.txt Datei würde sehr groß werden, also wie könnte ich das sonst erreichen?

Antwort

21

Dies wird für alle gut verhalten Suchmaschinen arbeiten, fügen Sie ihn einfach an die <head>:

<meta name="robots" content="noindex, nofollow" /> 
+0

2

Wenn Apache mit I mod-Rewrite alias robots.txt zu einem Skript verwenden würde, die dynamisch den notwendigen Inhalt erzeugen könnten.

Edit: Wenn IIS verwenden Sie ISAPIrewrite verwenden könnte das gleiche zu tun.

0

Auf ähnliche Weise zu @James Marshall Vorschlag - in ASP.NET Sie ein Httphandler verwenden könnte Anrufe Roboter umleiten .txt zu einem Skript, das den Inhalt generiert hat.

-1

Sie können durch die Einschränkung Roboter Meta-Tags Suchmaschinen zu lesen oder zu indizieren Ihre Inhalte nicht zuzulassen. Auf diese Weise wird Spider Ihre Anweisungen berücksichtigen und nur solche Seiten indizieren, die Sie möchten.

0

Sie können implementieren durch robots.txt mit dynamischen Skript Erzeugen des Ausgangs ersetzen. Mit Apache Sie könnten einfache .htaccess-Regel machen, um das zu erreichen.

RewriteRule ^robots\.txt$ /robots.php [NC,L] 
-1

Block dynamische Webseite durch robots.txt Verwendung dieser Code


User-agent: *

Disallow:/setnewsprefs?

Disallow: /index.html?

Nicht zulassen: /?

Allow: /? Hl =

Disallow:/hl = * &

0

Gerade für diesen Thread, stellen Sie sicher, dass Sie den Kopf ein noindex-Meta-Tag enthält?. Das ist eine weitere Möglichkeit, Suchmaschinen dazu zu bringen, Ihre Seite nur in robots.txt zu crawlen.