Nun, ich versuche ziemlich genau herauszufinden, wie man Informationen von einer Webseite holt und sie in mein Programm bringt (in Java).Wie scanne ich eine Webseite (oder Seite) nach Informationen und bringe sie in mein Programm?
Zum Beispiel, wenn ich die genaue Seite kenne, von der ich Informationen möchte, der Einfachheit halber eine Best Buy Artikelseite, wie würde ich die entsprechenden Informationen bekommen, die ich von dieser Seite brauche? Wie der Titel, Preis, Beschreibung?
Wie würde dieser Prozess überhaupt heißen? Ich habe keine Ahnung, dass ich überhaupt anfangen sollte, das zu erforschen.
Edit: Okay, ich bin ein Test für die JSoup läuft (die von BalusC posted on), aber ich erhalte immer diese Fehlermeldung:
Exception in thread "main" java.lang.NoSuchMethodError: java.util.LinkedList.peekFirst()Ljava/lang/Object;
at org.jsoup.parser.TokenQueue.consumeWord(TokenQueue.java:209)
at org.jsoup.parser.Parser.parseStartTag(Parser.java:117)
at org.jsoup.parser.Parser.parse(Parser.java:76)
at org.jsoup.parser.Parser.parse(Parser.java:51)
at org.jsoup.Jsoup.parse(Jsoup.java:28)
at org.jsoup.Jsoup.parse(Jsoup.java:56)
at test.main(test.java:12)
ich habe Apache Commons
Sie habe ein Problem mit LinkedList, weil LinkedList.peekFirst in Java 1.6 erschienen ist und du anscheinend ein Ohr verwendest Lier-Version – zamza
Dieser Prozess wird häufig als "screen scraping" bezeichnet und wird verwendet, wenn eine API (wie SOAP) nicht verfügbar ist, aber eine Web-GUI ist. Es bedeutet, dass Ihre Anwendung sich als Webbrowser ausgeben und die HTML-Seiten (mehr oder weniger) manuell parsen muss. Ich schlage vor, dass Sie eine der unten aufgeführten APIs in Betracht ziehen, die einen Großteil der Analyse automatisieren. –