2013-08-16 5 views
8

Die folgenden haben nicht funktioniert. Ich weiß nicht, warum es nur in der Start-URL aufhört, gehe nicht in die Links hinein, um nach dem angegebenen Dateityp zu suchen.Laden Sie alle Dateien eines bestimmten Typs von einer Website mit wget

wget -r -A .pdf HOME_PAGE_URL

Jede andere Art und Weise alle PDF-Dateien in einer Website rekursiv herunterladen. ?

+0

Mögliche Duplikat von [Wie Laden Sie alle Links zu .zip-Dateien auf einer bestimmten Webseite mit wget/curl herunter?] (http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123

Antwort

1

Es kann auf einer robots.txt basieren. Versuchen Sie, -e robots=off hinzuzufügen.

Andere mögliche Probleme sind Cookie-basierte Authentifizierung oder Agent-Zurückweisung für wget. See these examples.

EDIT: Der Punkt im „.pdf“ ist falsch nach sunsite.univie.ac.at

+0

versucht, aber das gleiche Ergebnis. Es ist keine Cookie-basierte Website sicher. Ich könnte laden mit Python Urllib rekursiv öffnen. Vielleicht wird das Protokoll Ihnen helfen. Es lädt im Grunde die Startseite herunter, sagt das Entfernen von , da es abgelehnt werden sollte. Dann trifft eine Seite, die keine Links hat und stoppt dort. Was ist mit den anderen Links in Hoffnung Magier? – SoulMan

+0

Versucht was? Den Punkt entfernen? Die robots.txt ignorieren? Oder einen Browser simulieren? Oder alle? – rimrul

+0

Versucht, den Punkt zu entfernen und den Roboter zu ignorieren – SoulMan

1

folgende cmd funktioniert bei mir, es Bilder von einer Website herunterladen werden

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/