Erstens, Dies ist keine doppelte Frage, weil ich bereits fast alle 503/Roboter Index Probleme überprüft haben. Keines von ihnen hat mein Problem gelöst. Ich versuche eine Werbeliste von indiegala.com zu bekommen, aber diese Seite hat eine Art Schutz, um Bots und Roboter zu verhindern. Mein Zweck ist nicht illegal, ich möchte nur eine Werbeliste bekommen und dann Spiele überprüfen, ob sie Dampfhandelskarten haben oder nicht. Aber richtig, Indiegala gibt mir einen Roboterindex. Derzeit verwende ich diesen Code;Java jsoup html Analyse Roboter Index/Bot Erkennung, noindex
String url = "https://www.indiegala.com/giveaways";
try {
String content = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36").ignoreHttpErrors(true).followRedirects(true).get().html();
System.out.println(content);
} catch (IOException ex) {
System.out.println(ex.toString());
}
Um die Ausgabe (Quelle der Website, in meinem Code, Variablen „Inhalt“) zu sehen, die Sie den Code ausführen können, die ich habe, ich Ausgang hier nicht hinzufügen kann, weil es ein wenig lang ist. Aber es sieht so aus;
<head>
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
</head>
Wie kann ich diesen Schutz bestehen? Kann mein Programm wie ein Mensch vorgehen, um diesen Schutz zu bestehen?
Danke für Ihre Antwort :) wenn ich diesen Code versuche, gibt es mir "403 HTTP-Fehler beim Abrufen der URL. Status = 403". Dann habe ich versucht, ignoreHttpErrors (true) hinzuzufügen. Code funktioniert ohne Fehler, gibt mir aber immer noch Roboterindex:/Ich glaube ich brauche meinen eigenen Cookie :) aber ich weiß nicht, wie ich mir einen holen kann :) –