Ich habe ein Verzeichnis mit> 1000 .html-Dateien, und möchte sie alle für schlechte Links überprüfen - am besten mit der Konsole. Irgendein Werkzeug, das Sie für solch eine Aufgabe empfehlen können?Was wird verwendet, um HTML-Links in einem großen Projekt unter Linux zu überprüfen?
Antwort
Sie können Links aus HTML-Dateien mit Lynx Textbrowser extrahieren. Bash Scripting um dieses sollte nicht schwierig sein.
würde ich checklink (ein W3C-Projekt)
Solange Sie den Benutzeragenten einstellen und Kopfzeilen akzeptieren (um falsche Fehlercodes von Bot-Detektoren zu vermeiden), sollte dies funktionieren. –
Es würde gut aussehen, aber es ist definitiv nicht für so große Projekte gedacht - es gibt keine Möglichkeit, nur kaputte Links aufzulisten, und die Ausgabe für mein Projekt ist * wirklich * groß. –
Versuchen Sie, die webgrep Kommandozeilen-Tools oder, wenn Sie mit Perl, der HTML::TagReader Modul vom selben Autor bequem sind.
Sie wget
verwenden können, zB
wget -r --spider -o output.log http://somedomain.com
am unteren Rand der output.log Datei, wird es zeigen, ob wget
defekte Links gefunden hat. Sie können das mit awk/grep
Eine alternative ** wget ** -Befehlszeile zum Überprüfen auf defekte Links finden Sie in [dieser Antwort] (http://stackoverflow.com/a/15029100/1497596). Beachten Sie außerdem, dass ein Kommentar, den ich zu dieser Antwort hinterlassen habe, einen Link zu ** wget für Windows ** enthält. – DavidRR
analysieren Lynx kann es tun, aber es unterstützt es nicht wirklich. wget ist viel besser für den Zweck geeignet. – reinierpost
Wie erhalten Sie wget, um eine Liste von Links auf einer Seite auszugeben? – Quentin
Es ist eine wirklich coole Idee. Warum habe ich nicht früher daran gedacht? –