2016-04-19 8 views
0

Ich bin ein Bash-Skript machen einige HTML-Inhalte, die Befehlszeile abrufen:Wie kann man nicht druckbare Zeichen mit wget-Ausgabe nicht anzeigen?

wget http://some_url.com -q -O -output.txt -o /dev/null 

Aber wenn es Bilder in der Seite wget noch „Anzeige“ die mit nicht-druckbare caracters.

Gibt es eine Möglichkeit, wget mitzuteilen, dass diese nicht druckbaren Zeichen nicht angezeigt werden sollen?

Prost

ps: wie eine Tatsache, ich kann auf dem „output.txt“ jede grep nicht tun, wie es als Binärdatei betrachtet wird (wegen des nicht druckbaren caracters)

Sie können mit thsi URL zum Beispiel versuchen: https://www.offensive-security.com/pwbonline/icq.html

+0

Ohne die URL wissen Sie es fordern könnte alles sein. Du kannst ein Bild für alle herunterladen, die hier bekannt sind. – 123

+0

@ 123 Ich habe gerade meinen Beitrag – aurelien75000

+0

die Seite ist ssl bearbeitet. Verwenden Sie das Flag "--secure-protocol = protocol". Es kann jede dieser 'auto',' SSLv2', 'SSLv3',' TLSv1' sein. – 123

Antwort

0

Normalerweise HTML-Dokumente enthalten keine Binärdaten. Ich kann dieses spezifische Problem nicht reproduzieren.

Wenn es nur etwa ist grep zu zwingen, in Dateien zu suchen, die in der Regel übersprungen würde, weil grep übernimmt sie binär sind, verwenden --binary-files=text:

wget -O- http://server.com/url | grep --binary-files=text 'foo.*bar' 
+0

tatsächlich ich weiß nicht, ob es binär ist, weil ich die Datei als .txt erstellt, aber wenn ich grep auf es mache ich das nachricht: "korrespondierende binäre datei", auch ich nutze die von dir vorgeschlagene option nicht weiter. Ich denke, der einzige Weg für mich wäre, alle nicht druckbaren Zeichen aus der Datei zu entfernen, aber ich weiß nicht wie – aurelien75000