Was verwenden Suchmaschinen-Bots als Ausgangspunkt? Ist es DNS-Look-up oder beginnen sie mit einer festen Liste von bekannten Websites? Irgendwelche Vermutungen oder Vorschläge?Wo beginnen Suchmaschinen zu crawlen?
Antwort
Ihre Frage kann auf zwei Arten interpretiert werden:
Sie gefragt sind, wo Suchmaschinen von ihren Crawl beginnen im Allgemeinen, oder wo beginnen sie eine bestimmte Website zu kriechen?
Ich weiß nicht, wie die großen Spieler arbeiten; Aber wenn Sie Ihre eigene Suchmaschine erstellen würden, würden Sie sie wahrscheinlich mit populären Portalsites erstellen. DMOZ.org scheint ein beliebter Ausgangspunkt zu sein. Da die großen Spieler so viel mehr Daten haben als wir, beginnen sie ihre Crawls wahrscheinlich an verschiedenen Orten.
Wenn Sie fragen, wo eine SE beginnt, Ihre bestimmte Website zu crawlen, hat es wahrscheinlich viel zu tun, welche Ihrer Seiten am beliebtesten sind. Ich stelle mir vor, dass wenn man eine super populäre Seite hat, auf die viele andere Seiten verlinken, dann würde das die Seite sein, von der aus SE gestartet wird, weil es so viele weitere Einstiegspunkte von anderen Seiten gibt.
Beachten Sie, dass ich nicht in SEO oder irgendetwas bin; Ich habe gerade eine Weile Bot- und SE-Verkehr für ein Projekt studiert, an dem ich gerade arbeitete.
Sie können Ihre Website an Suchmaschinen mit ihrer reichen - das wird Sie in ihr System bekommen. Wenn du danach tatsächlich gecrawlt wirst, ist das unmöglich zu sagen - aus Erfahrung ist es normalerweise etwa eine Woche oder so für einen ersten Crawl (Homepage, ein paar andere Seiten 1-Link von dort). Sie können erhöhen, wie viele Ihrer Seiten gecrawlt und indexiert werden, indem Sie eine klare semantische Linkstruktur verwenden und eine sitemap einreichen - das erlaubt Ihnen, alle Ihre Seiten aufzulisten und relativ zueinander zu gewichten, was den Suchmaschinen hilft zu verstehen, wie wichtig Sie sehen jeder Teil der Website relativ zu den anderen.
Wenn Ihre Website mit anderen gecrawlten Websites verknüpft ist, wird Ihre Website auch gecrawlt, wobei mit der verknüpften Seite begonnen wird und sich schließlich auf den Rest Ihrer Website ausbreitet. Dies kann lange dauern und hängt von der Crawl-Häufigkeit der verlinkten Websites ab. Daher ist die URL-Übermittlung der schnellste Weg, Google über Sie zu informieren!
Ein Werkzeug, das ich nicht genug empfehlen kann, ist die Google Webmaster Tool. Sie können sehen, wie oft Sie gecrawlt haben, welche Fehler der Googlebot aufgetreten ist (fehlerhafte Links usw.) und eine Vielzahl anderer nützlicher Tools enthält.
Im Prinzip fangen sie mit nichts an. Nur wenn jemand ihnen explizit mitteilt, dass sie ihre Website einbinden sollen, können sie damit beginnen, diese Seite zu durchsuchen und die Links auf dieser Seite zu verwenden, um mehr zu suchen.
In der Praxis werden die Ersteller einer Suchmaschine jedoch einige willkürliche Seiten einfügen, an die sie denken können. Zum Beispiel ihre eigenen Blogs oder die Websites, die sie in ihren Lesezeichen haben.
In der Theorie könnte man auch einige zufällige Adressen auswählen und sehen, ob es dort eine Website gibt. Ich bezweifle jedoch, dass jemand das tut; Die obige Methode funktioniert gut und erfordert keine zusätzliche Codierung nur zum Bootstrap der Suchmaschine.
Diese Frage scheint off-topic zu sein, weil es nicht um Programmierung geht. Siehe [Welche Themen kann ich hier fragen?] (Http://stackoverflow.com/help/on-topic) in der Hilfe. Vielleicht [Web Apps Stack Exchange] (http://webapps.stackexchange.com/) wäre ein besserer Ort, um zu fragen. – jww