Es passiert, dass Crawlen ist ein Prozess zum Speichern von zwischengespeicherten Daten, in zwischengespeicherten Daten sucht die Suchmaschine nach Hyperlinks, kann es Text oder Bild-Hyperlinks sein. Dann, nachdem es einen gefunden hat, öffnet es diese Seite zum Zwischenspeichern und beginnt, nach Verbindungen darin zu suchen. Der Prozess wird fortgesetzt, bis keine weiteren Links mehr gefunden werden können.
Also, in dieser langen Kette von Hyperlinks ist es fast sicher, dass der größte Teil des Internets enthalten ist. Aber das bedeutet nicht, dass es alles gekrochen hat. Viele neue Websites sind in diesem, wegen der fehlenden Links dazu weggelassen. und auch einige Websites werden nicht gecrawlt, da sie nicht dazu bestimmt sind, entdeckt zu werden.
Lassen Sie mich das klarstellen: Sie haben _all_ die Informationen in diesem Link gelesen, den Sie geteilt haben, und alle Videos angesehen, die es zur Verfügung stellt, und Sie verstehen immer noch nicht, wie es funktioniert? Ich denke nicht, dass wir dir helfen können. Auch scheint diese Frage gar nicht oder gar nicht zu programmieren. – paddy
Ja, aber es gibt keine Spezifikation über, wenn Sie von Null anfangen, wie Sie das Crawlen auf Billionen von Dokumenten über das Internet und ja diese Frage ist nicht über die Programmierung, so dass ich Programmiersprache Tags in diesem Beitrag nicht zuordnen ... Danke .. . –
Zweiter Abschnitt des _ Abschnitts "Crawlen und Indexieren" (https://www.google.co.in/insidesearch/howsearchworks/crawling-indexing.html) _Der Crawl-Prozess beginnt mit einer Liste von Webadressen aus früheren Crawls * und [Sitemaps] (https://support.google.com/webmasters/answer/156184?hl=de), die von Websitebesitzern * bereitgestellt werden. Wenn unsere Crawler diese Websites besuchen, suchen sie nach Links für andere Seiten, die Sie besuchen können ... – paddy