Ich schreibe einen Website Crawler in PHP und ich habe bereits Code, der alle Links von einer Website extrahieren kann. Ein Problem: Websites verwenden eine Kombination aus absoluten und relativen URLs. Beispiele (HTTP mit hxxp ersetzt, da ich nicht Hyperlinks veröffentlichen können):php alle Links zu absoluten URLs konvertieren
hxxp: //site.com/
site.com
site.com/index.php
hxxp: //site.com/hello/index.php
/hello/index.php
hxxp: //site2.com/index.php
site2.com/index.php
Ich habe keine Kontrolle über die Links (wenn sie absolut/relativ sind), aber ich muss ihnen folgen. Ich muss alle diese Links in absolute URLs konvertieren. Wie mache ich das in PHP?
Was verwenden Sie, um HTML zu analysieren und die Links zu finden? Ihre Bibliothek hat möglicherweise bereits eine Möglichkeit, relative URLs aufzulösen. –
Ich benutze meine eigene HTML-Link-Extraktionsfunktion. Ich benutze keine Bibliothek außer von Curl und PHP-Funktionen. –