Ich habe generiert webgrapgh
db in apache nutch
mit Befehl 'bin/nutch webgraph -segmentDir crawl/segments -webgraphdb crawl/webgraphdb'
.... Es generiert drei Ordner in crawl/webgraphdb, die Inlinks, Outlinks und Knoten sind. Jeder dieser Ordner enthielt zwei Binärdateien wie Daten und Index. Wie man visuelles Netzdiagramm in Apache nutch erhält? Was ist die Verwendung von Webgraph?Wie bekomme ich Webgraph in Apache Nutch?
Antwort
Die Webgraph werden intented einen Schritt in der Score-Berechnung seine basierend auf der Verknüpfungsstruktur (dh webgraph):
webgraph
wird die Datenstruktur für das angegebene Segment erzeugen/slinkrank
berechnet die Punktzahl basierend auf den vorherigen Strukturenscoreupdater
wird die Punktzahl von der Webgraph zurück in die crawldb
Beachten Sie, dass dieses Programm sehr CPU/IO-intensiv ist und die internen Links einer Website standardmäßig ignoriert.
Sie können den Befehl nodedumper
verwenden, um nützliche Daten aus den Webgraph-Daten zu erhalten, einschließlich der tatsächlichen Punktzahl eines Knotens und der am höchsten bewerteten Inlinks/Outlinks. Dies soll jedoch nicht visualisiert werden, obwohl Sie die Ausgabe dieses Befehls analysieren und alle Visualisierungen generieren könnten, die Sie benötigen.
Das wird gesagt, seit Nutch 1.11 wurde das Plugin index-links
hinzugefügt, mit dem Sie die Inlinks und Outlinks jeder URL in Solr/ES indizieren können. Ich habe diese Plugin-Indizierung in Solr zusammen mit der Sigmajs-Bibliothek verwendet, um einige Graph-Visualisierungen der Link-Struktur meiner Crawls zu erzeugen, vielleicht könnte dies Ihren Bedürfnissen entsprechen.
Vielen Dank für die Antwort !! Es war sehr hilfreich. Wir entwickeln eine Suchmaschine mit nutch und solr. Wir möchten Ihre Anleitung für unser Projekt. Könnten Sie bitte Ihre Kontaktdaten teilen ... – KAP
Nach der Erstellung von Webgraphdb mit Inlinks, Outlinks und Knoten. Kannst du bitte klar erklären, wie man ein visuelles Diagramm mit Sigmajs erzeugt? Kannst du uns bitte dabei helfen? – KAP
Hallo @KAP, bei näherer Betrachtung enthält die Ausgabe des Programms "nudedumper" keine Inlinks und Outlinks, sondern sortiert die Liste der URLs anhand der Anzahl der Inlinks/Outlinks oder der Punktzahl. Es bedeutet, dass es die Link-Informationen verwendet, aber es nicht auf nutzbare Weise ausgibt. Das Plugin sollte funktionieren (was ich getan habe) Sie können mich erreichen: betancourt.jorge bei gmail.com. –