Ich möchte einige Informationen einer Webseite verschrotten. Es verwendet eine Tabelle Layout-Struktur.PHP webscraping mit einfachen HTML-dom nicht funktioniert, wenn die Ausgabe ist nicht in der Lage html-Tags
Ich möchte die dritte Tabelle in der verschachtelten Tabellen-Layout extrahieren, die eine Reihe von verschachtelten Tabellen enthält .each .Aber den Code ein Ergebnis Veröffentlichung funktioniert nicht
include('simple_html_dom.php');
$url = 'http://exams.keralauniversity.ac.in/Login/index.php?reslt=1';
$html = file_get_contents($url);
$result =$html->find("table", 2);
echo $result;
I Curl-Gebraucht Webseite zu extrahieren, aber die Problem ist, dass seine Tags nicht in der richtigen Reihenfolge sind, so dass es nicht mit einem einfachen dom-Element extrahiert werden kann.
function curl($url) {
$ch = curl_init(); // Initialising cURL
curl_setopt($ch, CURLOPT_URL,$url); // Setting cURL's URL option with the $url variable passed into the function
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); // Setting cURL's option to return the webpage data
$data = curl_exec($ch); // Executing the cURL request and assigning the returned data to the $data variable
curl_close($ch); // Closing cURL
return $data; // Returning the data from the function
}
function scrape_between($data, $start, $end){
$data = stristr($data, $start); // Stripping all data from before $start
$data = substr($data, strlen($start)); // Stripping $start
$stop = stripos($data, $end); // Getting the position of the $end of the data to scrape
$data = substr($data, 0, $stop); // Stripping all data from after and including the $end of the data to scrape
return $data; // Returning the scraped data from the function
}
$scraped_page = curl($url); // Executing our curl function to scrape the webpage http://www.example.com and return the results into the $scraped_website variable
$scraped_data = scrape_between($scraped_page, ' </html>', '</table></td><td></td></tr>
</table>');
echo $scraped_data;
$myfile = fopen("newfile.html", "w") or die("Unable to open file!");
fwrite($myfile, $scraped_data);
fclose($myfile);
Wie das Ergebnis kratzen und die pdf
haben Sie getestet es? und kleine Erklärung –
Ja, ich habe es getestet. Es ist alles CSS (plus jQuery-Erweiterungen). 'td [2]' zum Beispiel bedeutet das zweite 'td' – pguardiario
Ich habe es upvoted können Sie mir mit einem regulären Ausdruck helfen, das veröffentlichte Datum zu extrahieren? –