2016-07-27 5 views
-2

Ich möchte Kommentare aus dem Link (WebCrawler) extrahieren. Dieser Code ist von this Link (Strg + u).Extract Kommentare von jeder Website (Kommentare in der .js-Datei) in Python3 mit PhantomJS

<div class="spot-im-frame-inpage" data-post-id="353493"></div><script type="text/javascript"> 
!function(t,e,n){function a(t){var a=e.createElement("script");a.type="text/javascript",a.async=!0,a.src=("https:"===e.location.protocol?"https":"http")+":"+n,(t||e.body||e.head).appendChild(a)}function o(){var t=e.getElementsByTagName("script"),n=t[t.length-1];return n.parentNode} var p=o();t.spotId="sp_6phY2k0C",t.parentElement=p,a(p)}(window.SPOTIM={},document,"//www.spot.im/launcher/bundle.js"); 

Kann ich in die bundle.js für die Extraktion von Kommentaren gehen?

Ich lese über phantomJs. Kann ich die Kommentare von jeder Javascript-Datei mit phantomJs in Python abschaben? (Wie im obigen Code. bundle.js). Falls ja! Wie? Ein Beispiel für das Öffnen der .js Datei?

+0

Was sind Kommentare? Meinst du die Kommentare auf der Seite oder die Kommentare im Code der Seite? Hast du selbst etwas probiert? Stack Overflow ist kein Code-Schreibdienst, und es ist wahrscheinlich möglich. –

+0

Oh mein Gott! Was zur Hölle ist das Verhalten! – user6575792

+0

@ArtjomB. Es wird gut sein, wenn Sie Neulingen kaltes Verhalten geben. – user6575792

Antwort

1

Da alle Kommentare an die Klasse message-entities gebunden sind. Ich würde den Crawler veranlassen, das HTML für jedes Element mit dieser Klasse zu extrahieren. Der einfachste Weg, phantomJS mit Python zu verwenden, ist über Selenium oder Ghostdriver. Wenn Sie nicht mit Python arbeiten, dann würde ich vorschlagen, etwas wie node-horseman oder casperjs zu verwenden, um durch die Website zu kriechen und die Kommentare zu erhalten.

+0

Kannst du mich auf ein Beispiel für das Extrahieren von Kommentaren durch casperjs oder node-horseman verweisen? – user6575792

+0

https://github.com/johntitus/node-horseman 'var Horseman = erfordern (" node-horseman "); var horseman = neuer Reiter(); Reiter \t .Open ('http://lite.yelp.com/search?find_desc=pizza&find_loc=94040&find_submit=Search') \t .text ('Adresse') \t log() \t .Close (); ' – tcasey

+0

Wie kann ich eine' .js' Datei mit einer der oben genannten Bibliotheken öffnen? – user6575792