2008-09-16 11 views

Antwort

1

Hängt davon ab, welche Art von Verarbeitung, die Sie tun möchten. Sie können Tidy anweisen, XHTML zu generieren, was eine Art von XML ist, was bedeutet, dass Sie alle üblichen XML-Tools wie XSLT und XQuery für die Ergebnisse verwenden können.

Wenn Sie sie in Microsoft Excel verarbeiten möchten, dann sollten Sie in der Lage sein, die Tabelle aus dem HTML zu schneiden und in eine Datei zu legen, dann öffnen Sie diese Datei in Excel: es wird glücklich eine HTML-Tabelle in konvertieren eine Tabellenkalkulationsseite. Sie könnten es dann als CSV oder als Excel-Arbeitsmappe usw. speichern (Sie können es sogar auf einem Webserver verwenden - geben Sie eine HTML-Tabelle zurück, aber setzen Sie die Content-Type-Kopfzeile auf application/ms-vnd.excel: Excel öffnet und importiert die Tabelle und schaltet sie in ein Eine Tabellenkalkulation.)

Wenn Sie wollen, dass CSV in eine Datenbank einfließt, dann können Sie wie bisher über Excel arbeiten, oder wenn Sie den Prozess automatisieren möchten, könnten Sie ein Programm schreiben, das die XML-navigierende API Ihrer verwendet Wahl, um die Tabellenzeilen zu iterieren und sie als CSV zu speichern. Pythons Elementtree- und CSV-Module würden dies ziemlich einfach machen.

2

Ich habe BeautifulSoup für solche Dinge in der Vergangenheit mit großem Erfolg verwendet.

1

Nach der Überprüfung der Vorschläge, habe ich mit HtmlUnit aufgewickelt.

Mit HtmlUnit konnte ich den Java-Code anpassen, um jede HTML-Datei im Ordner zu öffnen, navigieren Sie zum TABLE-Tag, Abfrage jeder Spalte Inhalt und extrahieren Sie die Daten, die ich zum Erstellen einer CSV-Datei benötigt.