Ich versuche, einen Crawler und Schaber in Apache Nutch zu bauen, um alle Seiten zu finden, die einen Abschnitt enthalten, der über ein bestimmtes Wortthema spricht (zB "Wahl", "Wahlen") "Stimme" usw.).Scraper: Unterscheidender bedeutungsvoller Text von bedeutungslosen Einzelteilen, hadoop
Sobald ich gecrawlt habe, reinigt Nutch den HTML-Code von Stoppwörtern und Tags, aber er nimmt keine Menü-Voices (das sind auf jeder Seite der Website). So könnte es passieren, dass Sie, wenn Sie nach allen Seiten suchen, die über Wahlen sprechen, eine ganze Website abrufen können, weil sie das Wort "Wahlen" in ihrem Menü und daher auf jeder Seite hat.
Ich habe mich gefragt, ob Techniken, die mehrere Seiten der Website analysieren, um zu verstehen, was die Hauptvorlage einer Seite ist, existieren. Nützliche Papiere und/oder Implementierungen/Bibliotheken.
Ich habe überlegt, eine Art Hadoop-Job zu erstellen, der Ähnlichkeiten zwischen mehreren Seiten analysiert, um eine Vorlage zu extrahieren. Aber die gleiche Website könnte mehrere Vorlagen haben, so dass es schwer ist, sich einen effektiven Weg dafür zu überlegen.
E.G.
WEBSEITE 1:
MENU HOME VOTE ELECTION NEWS
meaningful text... elections ....
WebPage 2:
MENU HOME VOTE ELECTION NEWS
meaningful text... talking about swimming pools ....