2016-06-07 11 views
-1

Heute habe ich eine Frage, wie Google Crawler jede Seite über das Internet beim Crawlen finden Sie bitte teilen Sie mir die Antworten, wenn Sie haben.Wie Google Crawler jede Seite über das Internet finden

Überprüfen Sie den folgenden Link, wenn Sie mehr dazu benötigen.

HOW SEARCH WORKS

Vielen Dank im Voraus !!!!

+0

Lassen Sie mich das klarstellen: Sie haben _all_ die Informationen in diesem Link gelesen, den Sie geteilt haben, und alle Videos angesehen, die es zur Verfügung stellt, und Sie verstehen immer noch nicht, wie es funktioniert? Ich denke nicht, dass wir dir helfen können. Auch scheint diese Frage gar nicht oder gar nicht zu programmieren. – paddy

+0

Ja, aber es gibt keine Spezifikation über, wenn Sie von Null anfangen, wie Sie das Crawlen auf Billionen von Dokumenten über das Internet und ja diese Frage ist nicht über die Programmierung, so dass ich Programmiersprache Tags in diesem Beitrag nicht zuordnen ... Danke .. . –

+0

Zweiter Abschnitt des _ Abschnitts "Crawlen und Indexieren" (https://www.google.co.in/insidesearch/howsearchworks/crawling-indexing.html) _Der Crawl-Prozess beginnt mit einer Liste von Webadressen aus früheren Crawls * und [Sitemaps] (https://support.google.com/webmasters/answer/156184?hl=de), die von Websitebesitzern * bereitgestellt werden. Wenn unsere Crawler diese Websites besuchen, suchen sie nach Links für andere Seiten, die Sie besuchen können ... – paddy

Antwort

0

Es passiert, dass Crawlen ist ein Prozess zum Speichern von zwischengespeicherten Daten, in zwischengespeicherten Daten sucht die Suchmaschine nach Hyperlinks, kann es Text oder Bild-Hyperlinks sein. Dann, nachdem es einen gefunden hat, öffnet es diese Seite zum Zwischenspeichern und beginnt, nach Verbindungen darin zu suchen. Der Prozess wird fortgesetzt, bis keine weiteren Links mehr gefunden werden können.

Also, in dieser langen Kette von Hyperlinks ist es fast sicher, dass der größte Teil des Internets enthalten ist. Aber das bedeutet nicht, dass es alles gekrochen hat. Viele neue Websites sind in diesem, wegen der fehlenden Links dazu weggelassen. und auch einige Websites werden nicht gecrawlt, da sie nicht dazu bestimmt sind, entdeckt zu werden.

+0

Dank @Shashikant_ also beginnt dieser Prozess mit einer bestimmten Seite und er hat die meisten Seiten gecrawlt? ? –

+0

Ja. Es gibt jedoch auch Systeme, die Crawls manuell oder prioritär anfordern können. Wenn Sie eine neue Website haben, werden Sie aufgefordert, die Seite manuell zu übermitteln, um den Crawlingprozess zu beschleunigen Webseite. –

+0

Vielen Dank für Ihre Antwort Kumpel, das bedeutet Crawling Datenbankgröße ist mit der Zeit zunehmen und wir bekommen besseres Ergebnis nach dem Crawlen besser ... –