Ich arbeite an einem Schulprojekt, in dem wir den Inhalt von Webseiten analysieren möchten. Wir wollen uns jedoch nicht mit Nav-Bars und Kommentaren befassen. Wenn wir uns eine bestimmte Website anschauen, könnten wir einen Parser erstellen, um diese Art von überflüssigen Dingen speziell für diese Seite herauszufiltern, aber wir hoffen, auf willkürlichen Seiten zu arbeiten, die wir vorher vielleicht noch nie gesehen haben.Gibt es Tools, um den Inhalt einer Webseite zu isolieren?
Ich glaube, es ist ein bisschen viel zu hoffen, also werde ich nicht überrascht sein, wenn nichts dergleichen bereits existiert, aber weiß jemand von einem Tool, das diese Art der Inhaltsisolierung auf beliebigen Websites tun kann? Ich hatte ein bisschen Glück, Seiten mit anderen von der gleichen Seite zu diffundieren, aber es ist unvollkommen und hinterlässt Kommentare und so.
Ich arbeite in Java, aber würde gerne Open Source in jeder Sprache, die ich für Ideen verwenden kann.
Das sieht wirklich cool aus! Ich muss genauer hinsehen. – Matt