2009-07-22 6 views
1

Ich versuche, die Quelle jeder Seite in ein Textfeld für einen clientseitigen HTML-Editor zu laden. Ich muss in der Lage sein, die gesamte Quelle einer Webseite zu bekommen, nicht nur den Körper. Diese yql Abfrage gibt nur der Körper:Gibt es eine Möglichkeit, die gesamte Quelle einer Seite mit yql zu erhalten?

http://query.yahooapis.com/v1/public/yql?format=xml&callback=editor.handleLoad&q=select+*+from+html+where+url%3D%22example.com%22 

Gibt es eine Möglichkeit, die gesamte Quelle zu erhalten, oder gibt es andere freie json-p-x webservices das kann?

Antwort

1

Ich sehe keine offensichtliche Möglichkeit, das mit YQL zu tun, aber hier ist eine Yahoo Pipe, die zu funktionieren scheint. Es weigert Seiten zu bekommen, die durch ihre robots.txt nicht anerkannt werden, aber es wird die gesamte Quelle für andere Websites bekommen:

http://pipes.yahoo.com/pipes/pipe.info?_id=dCsGDO123hG6BNv70EypaA

Der Standard auf www.example.com gesetzt, die wegen verweigert die robots.txt auf dieser Seite. Es akzeptiert jedoch die URL als Parameter. Hier ist ein Link zu einem Beispiel für die Verwendung dieses Rohrs, das die Quelle von pipes.yahoo.com bekommt und gibt das Ergebnis in JSON gewickelt:

http://pipes.yahoo.com/pipes/pipe.run?_id=dCsGDO123hG6BNv70EypaA&_render=json&url=http%3A%2F%2Fpipes.yahoo.com%2F

Does diese Hilfe?

+0

Das ist näher. Die Pipe scheint alle Meta - und Script - Tags herauszufiltern. Gibt es Proxies/Webservices, die die gesamte Seite zurückgeben? – Craig