Was ist der beste Weg, um Daten von anderen Websites programmatisch zu erhalten? "Amazon bietet zum Beispiel"

Ich möchte eine kleine Anwendung erstellen, die zu einigen Websites gehen und spezifische Daten von dieser Website lesen wird, ich möchte die Anwendung generisch sein, wie ich so auf jeder Website arbeiten kann, die ich später will. So gibt es eine gute Möglichkeit, Website mit .net zu analysieren?Was ist der beste Weg, um Daten von anderen Websites programmatisch zu erhalten? "Amazon bietet zum Beispiel"

Quelle

2009-03-19 Amr Elgarhy

Mir wurde gesagt, dass ein gutes Toolkit für Screen Scraping in .NET HTML Agility Pack ist.

Sie sollten sich bewusst sein, dass es immer sehr schwierig ist, eine Screen-Scraping-Lösung stabil oder allgemein einsetzbar zu machen, wie Sie es beschreiben.

Siehe auch andere Antworten auf diese Frage: Screen scraping: regular expressions or XQuery expressions?

Quelle

2009-03-19 16:01:49

Unter der Annahme, dass die Daten, die Sie erhalten möchten, nicht über RSS oder ähnliche Mittel verfügbar sind, klingt es so, als würden Sie nach einem Seitenabstreifer suchen. Googling für ".NET HTML-Scraper" gibt eine Fülle von Informationen zum Thema zurück.

Quelle

2009-03-19 15:58:38 CloudyMusic

Obwohl nicht wirklich für Ihr Szenario gedacht, sehen Sie sich Watin. Ich gehe davon aus, dass Sie screenen wollen. Wattin ist ziemlich einfach in Gang zu bringen und erspart dir, viel vom Parsing-Code selbst zu schreiben.

Quelle

2009-03-19 15:58:41 JasonS

Lesen Website für Menschen zu lesen ist immer ein Problem. Ich mache das jetzt seit einigen Jahren und es war nie einfach. Es ist immer eine gute Idee, auf die Daten zu achten, die Sie benötigen, etwa in XML oder RSS.

Denken Sie immer daran, dass sich das Website-Layout ändern kann und Sie Ihre Anwendung anpassen müssen. Das Hauptproblem besteht jedoch darin, die benötigten Informationen auf der Seite zu finden. Wir brauchen immer eine Menge String-Methoden wie contains, left, mid, indexOf.

HTML ist eine Art XML, also könnte ein XMLParser funktionieren. Aber Browser sind immer etwas toleranter und akzeptieren und zeigen viele Seiten an, die nicht gut formatiert sind.

Quelle

2009-03-19 16:00:36 TalkingCode

Wenn die Website keine API bereitstellt, werden Sie am Ende die Website "scrapen". Das ist zwar möglich, aber extrem spröde. Wenn sich die Website ändert, wird die Logik, die Sie verwenden, um die gewünschten Informationen zu "finden", unterbrochen. Eine generische App zu haben, die bestimmte Informationen findet, ist ein großartiges Konzept, aber schwer zuverlässig zu implementieren.

Quelle

2009-03-19 16:01:17

für Fenster und reguläre Ausdrücke sollten mit wget tun, was Sie wollen. Sie verwenden wget, um den Quellcode zu erhalten, und verwenden dann reguläre Ausdrücke, um den gesamten Code herauszufiltern oder genau das zu erhalten, wonach Sie suchen, wenn es ein Muster hat.

Quelle

2009-10-01 22:20:30

als Referenz das ist wget URL http://www.gnu.org/software/wget/ –

Was ist der beste Weg, um Daten von anderen Websites programmatisch zu erhalten? "Amazon bietet zum Beispiel"

Antwort

Verwandte Themen