2016-08-02 10 views
0

Derzeit mein robots.txt werden folgendeRobots.txt Spezifische Ausschlüsse

#Sitemaps 
Sitemap: http://www.baopals.com.com/sitemap.xml 

#Disallow select URLs 
User-agent: * 
Disallow: /admin/ 
Disallow: /products/ 

Meine Produkte haben eine Menge doppelter Inhalte, wie ich über Daten aus taobao.com ziehen und automatisch übersetze sie in einer Menge von doppelten resultierenden und niedrig Qualitätsnamen, weshalb ich die ganze Sache einfach ablehne. Allerdings ändere ich manuell die Titel bestimmter Produkte und speichere sie erneut in der Datenbank und präsentiere sie auf der Homepage mit den richtigen Übersetzungen. Sie werden nur noch in /products/ gespeichert und sind für immer verloren, wenn ich sie von der Homepage entferne.

Ich frage mich, ob es möglich wäre, die Produkte, die ich auf der Homepage mit den aktualisierten Übersetzungen speichern, immer noch von Google indiziert werden oder bin ich gezwungen, das Verzeichnis der manuell aktualisierten Produkte zu ändern?

+0

Ich stimme ab, diese Frage als Off-Thema zu schließen, weil es um SEO geht –

+0

@JohnConde Ich stimme nicht zu, ich frage mich programmatisch, wenn es möglich ist, diese Produkte zu indizieren, ohne meine Dateistruktur zu ändern. Das Seo-Tag scheint relevant zu sein – NooBskie

Antwort

0

Einige Bots (einschließlich Googlebot) unterstützen das Feld Allow. Auf diese Weise können Sie Pfade angeben, die trotzdem crawlen dürfen.

Sie müssten also eine Allow Zeile für jedes Produkt, das Sie gecrawlt werden möchten, hinzufügen.

User-agent: * 
Disallow: /admin/ 
Disallow: /products/ 
Allow: /products/foo-bar-1 
Allow: /products/foo-foo-2 
Allow: /products/bar-foo 

Aber statt von disallowing Ihrer Produktseiten kriechen, können Sie Indizierung verbieten wollen. Dann kann ein Bot weiterhin Ihre Seiten besuchen und Links folgen, aber er fügt die Seiten nicht seinem Suchindex hinzu.

Fügen Sie jeder Produktseite <meta name="robots" content="noindex" /> hinzu (in head), und entfernen Sie sie (oder ändern Sie sie in index) für jede Produktseite, die indexiert werden soll. Es gibt auch einen entsprechenden HTTP-Header, falls das für Sie einfacher ist.