2016-04-12 3 views
1

Ich habe generiert webgrapgh db in apache nutch mit Befehl 'bin/nutch webgraph -segmentDir crawl/segments -webgraphdb crawl/webgraphdb' .... Es generiert drei Ordner in crawl/webgraphdb, die Inlinks, Outlinks und Knoten sind. Jeder dieser Ordner enthielt zwei Binärdateien wie Daten und Index. Wie man visuelles Netzdiagramm in Apache nutch erhält? Was ist die Verwendung von Webgraph?Wie bekomme ich Webgraph in Apache Nutch?

Antwort

3

Die Webgraph werden intented einen Schritt in der Score-Berechnung seine basierend auf der Verknüpfungsstruktur (dh webgraph):

  • webgraph wird die Datenstruktur für das angegebene Segment erzeugen/s
  • linkrank berechnet die Punktzahl basierend auf den vorherigen Strukturen
  • scoreupdater wird die Punktzahl von der Webgraph zurück in die crawldb
aktualisieren

Beachten Sie, dass dieses Programm sehr CPU/IO-intensiv ist und die internen Links einer Website standardmäßig ignoriert.

Sie können den Befehl nodedumper verwenden, um nützliche Daten aus den Webgraph-Daten zu erhalten, einschließlich der tatsächlichen Punktzahl eines Knotens und der am höchsten bewerteten Inlinks/Outlinks. Dies soll jedoch nicht visualisiert werden, obwohl Sie die Ausgabe dieses Befehls analysieren und alle Visualisierungen generieren könnten, die Sie benötigen.

Das wird gesagt, seit Nutch 1.11 wurde das Plugin index-links hinzugefügt, mit dem Sie die Inlinks und Outlinks jeder URL in Solr/ES indizieren können. Ich habe diese Plugin-Indizierung in Solr zusammen mit der Sigmajs-Bibliothek verwendet, um einige Graph-Visualisierungen der Link-Struktur meiner Crawls zu erzeugen, vielleicht könnte dies Ihren Bedürfnissen entsprechen.

+0

Vielen Dank für die Antwort !! Es war sehr hilfreich. Wir entwickeln eine Suchmaschine mit nutch und solr. Wir möchten Ihre Anleitung für unser Projekt. Könnten Sie bitte Ihre Kontaktdaten teilen ... – KAP

+0

Nach der Erstellung von Webgraphdb mit Inlinks, Outlinks und Knoten. Kannst du bitte klar erklären, wie man ein visuelles Diagramm mit Sigmajs erzeugt? Kannst du uns bitte dabei helfen? – KAP

+0

Hallo @KAP, bei näherer Betrachtung enthält die Ausgabe des Programms "nudedumper" keine Inlinks und Outlinks, sondern sortiert die Liste der URLs anhand der Anzahl der Inlinks/Outlinks oder der Punktzahl. Es bedeutet, dass es die Link-Informationen verwendet, aber es nicht auf nutzbare Weise ausgibt. Das Plugin sollte funktionieren (was ich getan habe) Sie können mich erreichen: betancourt.jorge bei gmail.com. –