2016-07-29 29 views
0

Ich bin wget --recursive --no-parent --adjust-extension --convert-links --page-requisites --restrict-file-names=windows --keep-session-cookies --load-cookies cookies.txt http://DOMAIN/private/ laufen und es lädt korrekt die private/index.html Datei.Rekursive/no-parent wget folgt nicht auf Links mit cookie-basierter Authentifizierung

Ich habe diese Datei überprüft und es ist die richtige Seite nur mit erfolgreicher Authentifizierung angezeigt. Es enthält Markup wie:

<ul><li><a class="CP___PAGEID_56400" href="http://DOMAIN/private/page1.html">My private page</a></li>... 

Doch nach all Ressourcen (Bilder etc.) zu holen, daran zu denken scheint es fertig ist und schaltet nach ‚Umwandlung Links‘.

Wenn ich --no-parent überspringen, geht es weiter. Also ist die --no-parent flag irgendwie verwirrende wget wie zu Unterseiten?

Antwort

0

Endlich erkannt, dass wget gehorcht robots.txt! Ich habe meinen Befehl in wget -e robots=off --wait 0.25 --recursive --no-parent ... geändert und es funktioniert. Ich habe die --wait 0.25 hinzugefügt, da ich den Server auch nicht überlisten wollte.