2009-03-19 4 views

Antwort

0

Unter der Annahme, dass die Daten, die Sie erhalten möchten, nicht über RSS oder ähnliche Mittel verfügbar sind, klingt es so, als würden Sie nach einem Seitenabstreifer suchen. Googling für ".NET HTML-Scraper" gibt eine Fülle von Informationen zum Thema zurück.

1

Obwohl nicht wirklich für Ihr Szenario gedacht, sehen Sie sich Watin. Ich gehe davon aus, dass Sie screenen wollen. Wattin ist ziemlich einfach in Gang zu bringen und erspart dir, viel vom Parsing-Code selbst zu schreiben.

0

Lesen Website für Menschen zu lesen ist immer ein Problem. Ich mache das jetzt seit einigen Jahren und es war nie einfach. Es ist immer eine gute Idee, auf die Daten zu achten, die Sie benötigen, etwa in XML oder RSS.

Denken Sie immer daran, dass sich das Website-Layout ändern kann und Sie Ihre Anwendung anpassen müssen. Das Hauptproblem besteht jedoch darin, die benötigten Informationen auf der Seite zu finden. Wir brauchen immer eine Menge String-Methoden wie contains, left, mid, indexOf.

HTML ist eine Art XML, also könnte ein XMLParser funktionieren. Aber Browser sind immer etwas toleranter und akzeptieren und zeigen viele Seiten an, die nicht gut formatiert sind.

0

Wenn die Website keine API bereitstellt, werden Sie am Ende die Website "scrapen". Das ist zwar möglich, aber extrem spröde. Wenn sich die Website ändert, wird die Logik, die Sie verwenden, um die gewünschten Informationen zu "finden", unterbrochen. Eine generische App zu haben, die bestimmte Informationen findet, ist ein großartiges Konzept, aber schwer zuverlässig zu implementieren.

1

für Fenster und reguläre Ausdrücke sollten mit wget tun, was Sie wollen. Sie verwenden wget, um den Quellcode zu erhalten, und verwenden dann reguläre Ausdrücke, um den gesamten Code herauszufiltern oder genau das zu erhalten, wonach Sie suchen, wenn es ein Muster hat.

+0

als Referenz das ist wget URL http://www.gnu.org/software/wget/ –