2013-04-05 3 views
51

Ich verwende Github, um den Text einer meiner Websites zu speichern, aber das Problem ist, dass Google den Text in Github indiziert. Also wird der gleiche Text sowohl auf meiner Seite als auch auf Github erscheinen. z.B. this search Der Top-Hit ist meine Seite. Der zweite Hit ist das Github-Repository.So stoppen Sie die Google-Indexierung meines Github-Repositorys

Es macht mir nichts aus, wenn Leute die Quellen sehen, aber ich möchte nicht, dass Google sie indiziert (und möglicherweise für doppelte Inhalte bestraft.) Gibt es eine Möglichkeit, neben dem privaten Repository, Google anzuweisen, die Indizierung zu stoppen es?

Was passiert bei Github Pages? Dies sind Websites, bei denen sich die Quelle in einem Github-Repository befindet. Haben sie das gleiche Problem der Duplizierung?

Nehmen Sie this search die am häufigsten getroffenen Leads zu the Marpa site, aber ich sehe nicht die source in den Suchergebnissen aufgeführt. Wie?

+7

Mit Blick auf die robots.txt von Github privaten gehe, sehe ich die Blobs in der Master-Zweig sind erlaubt, aber alle anderen Zweige sind deaktiviert . Das ist wahrscheinlich die Erklärung dafür, dass der Marpa-Inhalt nicht indexiert wurde. Wenn ich also einen anderen Zweig verwende und den Master-Zweig aus dem Repository entferne, wird die Indizierung gestoppt. – szabgab

+0

[robots.txt Direktiven zusammengefasst] [1] [1] (http://antezeta.com/news/avoid-search-engine-indexing) –

Antwort

65

Die https://github.com/robots.txt Datei von GitHub ermöglicht die Indizierungs der Kleckse in dem ‚Master‘ Zweig, sondern beschränkt alle anderen Zweige. Wenn Sie also keinen Master-Zweig haben, sollte Google Ihre Seiten nicht indexieren.

Wie die ‚Master‘ Zweig entfernen:

In Ihrem Klon einen neuen Zweig erstellen - nennen wir es ‚main‘ und schieben Sie es

zu GitHub
git checkout -b main 
git push -u origin main 

auf GitHub den Standardzweig ändern (siehe im Abschnitt Einstellung Ihres Repository) oder hier https://github.com/blog/421-pick-your-default-branch

dann den Master-Zweig aus dem Klon entfernen und von GitHub:

git branch -d master 
git push origin :master 

Bekommen Sie andere Leute, die bereits Ihr Repository gegabelt haben könnten, um dasselbe zu tun.

Alternativ, wenn Sie finanziell GitHub unterstützen möchten, können Sie https://help.github.com/articles/making-a-public-repository-private

+2

Danke. Ich folgte den Schritten, aber ich machte es direkt von github.com – Gabriel

+1

Interessant. Ich habe den Master-Zweig für meine Github-Website Repos aus hygienischen Gründen gelöscht, nicht zu erkennen, dass es diesen schönen Nebeneffekt haben würde. –

+0

Wie halten Sie github-Seiten richtig, wenn es keinen Master-Zweig gibt? – Bevan

-5

Kurzer Gruss. Ja, das kannst du mit robots.txt.

Wenn Sie verhindern möchten, dass Googlebot Inhalte auf Ihrer Website crawlt, haben Sie eine Reihe von Optionen, einschließlich der Verwendung von "robots.txt", um den Zugriff auf Dateien und Verzeichnisse auf Ihrem Server zu blockieren.

Sie benötigen eine robots.txt-Datei nur, wenn Ihre Website Inhalte enthält, die von Suchmaschinen nicht indiziert werden sollen. Wenn Sie möchten, dass Suchmaschinen alles auf Ihrer Site indizieren, benötigen Sie keine robots.txt-Datei (nicht einmal eine leere).

Während Google den Inhalt der von robots.txt gesperrten Seiten nicht crawlt oder indexiert, indexieren wir die URLs möglicherweise noch, wenn wir sie auf anderen Seiten im Internet finden. Daher können die URL der Seite und möglicherweise andere öffentlich verfügbare Informationen wie Ankertext in Links zu der Site oder der Titel aus dem Open Directory-Projekt (www.dmoz.org) in den Google-Suchergebnissen angezeigt werden.

Quellen:

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=93708 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

+9

Die robots.txt-Datei muss im Stammverzeichnis des Webs liegen Website und ich habe keinen Schreibzugriff auf http://github.com/robots.txt Crawlen kann auch im HTML-Header eingeschränkt werden, aber ich glaube nicht, dass ich die von Github für meinen Quellcode generierten Seiten ändern kann . – szabgab

+0

Falls jemand Roboter auf seinen eingebauten GitHub-Seiten verbieten möchte: Benutzer, die GitHub Pages verwenden, können eine robots.txt-Datei zu ihrem User Page-Repository hinzufügen und damit Roboter auf allen erstellten Seiten steuern (benutzername.github.io/*)). Sie können jedoch die Quelle für ihre User Page nicht verbergen, da sie sich in '' 'master''' befinden muss. Für Projekt-Repositories kann '' 'master''' gelöscht werden und ein weiterer Zweig kann für GitHub Pages verwendet werden. Nichts davon gilt für OP, da szabgab sagt, dass er Github Pages nicht verwendet. – olavimmanuel

0

Wenn Sie wollen, an die Master-Zweig bleiben scheint es einen privaten Repo (und Upselling Ihre GitHub Konto) oder über einen anderen Dienst keine Möglichkeit, um verwenden, die privaten Angebote Repos kostenlos wie Bitbucket.

+0

Ich habe schon (vor ungefähr einer Stunde) den 'Master'-Zweig entfernt und jetzt habe ich einen' Haupt'-Zweig, aber ich frage mich, ist das genug? – szabgab

+1

Wie GitHubs robots.txt zeigt, sollte es reichen. https://github.com/robots.txt – iltempo