2010-11-22 8 views
0

Ich arbeite an einem Schulprojekt, in dem wir den Inhalt von Webseiten analysieren möchten. Wir wollen uns jedoch nicht mit Nav-Bars und Kommentaren befassen. Wenn wir uns eine bestimmte Website anschauen, könnten wir einen Parser erstellen, um diese Art von überflüssigen Dingen speziell für diese Seite herauszufiltern, aber wir hoffen, auf willkürlichen Seiten zu arbeiten, die wir vorher vielleicht noch nie gesehen haben.Gibt es Tools, um den Inhalt einer Webseite zu isolieren?

Ich glaube, es ist ein bisschen viel zu hoffen, also werde ich nicht überrascht sein, wenn nichts dergleichen bereits existiert, aber weiß jemand von einem Tool, das diese Art der Inhaltsisolierung auf beliebigen Websites tun kann? Ich hatte ein bisschen Glück, Seiten mit anderen von der gleichen Seite zu diffundieren, aber es ist unvollkommen und hinterlässt Kommentare und so.

Ich arbeite in Java, aber würde gerne Open Source in jeder Sprache, die ich für Ideen verwenden kann.

Antwort

2

Sie könnten eine unofficial API von Arc90 Lesbarkeit versuchen.

Im Grunde genommen ist die Lesefähigkeit das Extrahieren von Inhalt auf einer Webseite und das Präsentieren als gut formatierter Artikel. Navigationsleisten, Kommentare und all die anderen Dinge, die den Inhalt einer Webseite umgeben, sind weg.

+0

Das sieht wirklich cool aus! Ich muss genauer hinsehen. – Matt

0

Ich bezweifle, dass etwas existiert, das tun würde, was Sie wollen. Ohne eine Art von semantischen Markup ist es fast unmöglich, "echten" Inhalt von den anderen Sachen zu unterscheiden. Dies ist eine Aufgabe, die echte Intelligenz erfordert.

Es gibt natürlich gute Werkzeuge für das Parsen von HTML Grade Korrektheit unterschiedlichen, und es ist oft möglich zusammen eine musterbasierte schustern Lösung für auf einer bestimmten Website mit Seiten zu tun ... vorausgesetzt, dass es gemeinsame Strukturen/Muster, die ausgelöst werden sollen.

3

Ich bin ein bisschen spät zu diesem (vor allem für ein Schulprojekt), aber wenn jemand dies zu einem späteren Zeitpunkt findet, kann das folgende hilfreich sein.

Ich stolperte über eine Java-Bibliothek, um genau dies zu tun. Leistung ist in meinen einfachen Tests ähnlich wie Lesbarkeit.

http://code.google.com/p/boilerpipe/

1

im auch ein bisschen spät zu diesem Gespräch aber ...

der Java Boilerpipe Extraktoren sind wahrscheinlich das, was Sie wollen (ArticleSentencesExtractor wahrscheinlich), obwohl es mindestens 1 Port der arc90 Lesbarkeit zu Java auf GitHub.

Wenn Sie eine schlechte mans boilerpipe aufbauen wollen Sie könnten versuchen, zwei Seiten aus dem gleichen Ort diff'ing (vorausgesetzt, sie die gleiche Vorlage verwenden, werden Sie wahrscheinlich ein interessantes Ergebnis erhalten)

Der Hauptunterschied zwischen boilerpipe , Lesbarkeit und ein diff-basierter Hack ist, dass Kesselpaneel alle HTML entfernen wird, aber einige Struktur erhalten