Das Herunterladen des HTML einer Webseite wird allgemein als Screen Scraping bezeichnet. Dies kann nützlich sein, wenn Sie möchten, dass ein Programm Daten von einer bestimmten Seite extrahiert. Der einfachste Weg, HTTP-Ressourcen anzufordern, ist ein Tool-Aufruf cURL. cURL kommt als eigenständiges Unix-Tool, aber es gibt Bibliotheken, um es in jeder Programmiersprache zu verwenden. So erfassen Art diese Seite aus der Unix-Kommandozeile:
curl http://stackoverflow.com/questions/1077970/in-any-languages-can-i-capture-a-webpageno-install-no-activex-if-i-can-plz
In PHP können Sie das gleiche tun:
<?php
$ch = curl_init() or die(curl_error());
curl_setopt($ch, CURLOPT_URL,"http://stackoverflow.com/questions/1077970/in-any-languages-can-i-capture-a-webpageno-install-no-activex-if-i-can-plz");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$data1=curl_exec($ch) or die(curl_error());
echo "<font color=black face=verdana size=3>".$data1."</font>";
echo curl_error($ch);
curl_close($ch);
?>
Nun, bevor eine ganze Website zu kopieren, sollten Sie ihre robots.txt-Datei überprüfen Prüfen Sie, ob sie Robotern ermöglichen, ihre Site zu spidern, und Sie sollten prüfen, ob eine API verfügbar ist, mit der Sie die Daten ohne HTML abrufen können.
Haben Sie buchstäblich einen Screenshot davon, wie wollen sieht die Webseite? ie Wie sieht es in Explorer oder Firefox aus? Oder möchten Sie, um die Datei, Text, HTML, die eine Webseite erstellen? – elviejo79