2012-04-02 8 views
-4

Ich versuche ein Skript zu schreiben, das eine Reihe grundlegender HTML -Tabellen beschreibt, die bestimmte Variationen bestimmter Wörter in verschiedenen Ländern in einer funktionierenden Tabelle für die Verwendung in einer Datenbank beschreiben. Jede Tabelle gilt für die Übersetzungen eines einzelnen Wortes über Ländergrenzen hinweg. In html nimmt es das Format:Regex-Skript zum Schreiben von Daten aus einer Tabelle in eine Tabellenkalkulation

<h5><a name="akas"> equivalent names in different countries </a> </h5> 
<table border="0" cellpadding="2"> 

<tr> 
<td>character string </td> 

<td> country name/country name/country name</td> 

</tr> 

<tr> 
<td>character string </td> 

<td>country name</td> 

</tr> 

.................. dieses Format wird fortgesetzt, bis der Tisch

</table> 

endet

Länderbezeichnungen wiederholen sich in Tabellen und sollten Spaltenüberschriften in der Tabelle darstellen, über die die Zeilen mit den entsprechenden Wörtern liegen. Ich bin total neu in Regex (was ich wirklich verwirrend finde) und auch Anfänger in Javascript. Wiederum suche ich nach Hilfe, wie man diese Art von Daten in eine funktionierende Tabelle für die Verwendung in einer größeren Datenbank umordnen kann. Wenn mir jemand helfen könnte, wäre es sehr geschätzt.

+1

also, was ist die Frage? – Kashyap

+0

die Frage ist, wie würde ich ein Skript Ländernamen zwischen der erkennen, auch wenn es mehrere Länder wie im obigen Beispiel und den vorhergehenden Inhalt von user1309067

+0

Sie können ein sed-Skript schreiben, um daraus Daten zu extrahieren und eine CSV-Datei zu erstellen. – Kashyap

Antwort

1

Sie sollten sich DOM Parsing und XPath ansehen. Mit XPath können Sie die HTML-Datei abfragen, um den Inhalt des von Ihnen benötigten Knotens abzurufen.

+0

Parsing HTML mit Regex ... http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – aaaidan

0

Sie können kopieren eine HTML-Tabelle in eine Tabelle einfügen.

+0

das Problem ist, dass die Tabellen nicht alle zusammenpassen perfekt, dh manchmal gibt es mehr als ein Land zwischen den und sie können jedes Mal verschiedene Gruppierungen sein. Ich möchte, dass das Skript die Namen der Länder irgendwie erkennt und die vorhergehenden Daten in die richtige Tabellenzelle legt. Außerdem gibt es mehrere 1000 dieser Tabellen, die ich zu kompilieren versuche. – user1309067