2016-04-17 1 views
-1

Ich versuche einen Wert von einer Webseite zu extrahieren.Konnte ganze Webseite nicht mit Python extrahieren

Die URL ich zu kratzen bin versucht sich auf: http://www.flipkart.com/philips-qt4005-15-trimmer/p/itmdze53vthypqhb?pid=SHVDGGZPC8PXJ7HR&al=wUEQZ4vph4oJqeH0CGNkrsldugMWZuE7eGHgUTGjVrpjizeD%2FNvlpAEwWx6I1Qy9R9ViMaFmI%2Bc%3D&ref=L%3A-1246372967349401781&srno=b_1

und der Wert I extrahieren möchte, ist Tue, 19th Apr.

Zuerst habe ich den folgenden Code verwendet, um die Quelle der HTML-Seite in einer lokalen Datei zu speichern.

import requests 
from bs4 import BeautifulSoup 
import re 
f = open("deldate.csv",'w') 
g = open("flip.csv",'w') 
request = requests.get("http://www.flipkart.com/philips-qt4001-15-trimmer-men/p/itmdu7ymtpdptghq?pid=SHVDU7YMTPDPTGHQ&al=wUEQZ4vph4o9VS1qRXcBE8ldugMWZuE7eGHgUTGjVrrcVamAbZwaUArMgFo2ArKEQzMEtMlIvg8%3D&ref=L%3A6510162326865727417&srno=p_2&query=trimmers+for+men&otracker=from-search").text 
soup = BeautifulSoup(request) 
g.write(str(soup)) 

Dann schrieb ich den folgenden Code den Wert zu extrahieren:

for line in soup.findAll('div', class_="delivery-ndd-help-message fk-hidden"): 
    for line1 in line.findAll('span',class_="fk-bold"): 
     ddate = line2.text 
     print (str(ddate)) 

Aber das Programm zurückgegeben einen Nullwert. Also öffnete ich die Datei, in der ich den HTML-Code der Webseite gespeichert hatte und versuchte nach 'Di, 19. April' zu suchen, konnte sie aber nicht finden.

Ich habe versucht,

import urllib2 
request = urllib.open(""http://www.flipkart.com/philips-qt4001-15-trimmer-men/p/itmdu7ymtpdptghq?pid=SHVDU7YMTPDPTGHQ&al=wUEQZ4vph4o9VS1qRXcBE8ldugMWZuE7eGHgUTGjVrrcVamAbZwaUArMgFo2ArKEQzMEtMlIvg8%3D&ref=L%3A6510162326865727417&srno=p_2&query=trimmers+for+men&otracker=from-search") 

in der Hoffnung, zu extrahieren alle Inhalte von der Webseite verwenden, aber auch das scheint nicht zu funktionieren.

Kann jemand bitte vorschlagen, wenn es eine bessere Möglichkeit gibt, den gesamten Inhalt von einer Webseite zu extrahieren?

+0

Ich öffne den Link in meiner Browser und ich kann nicht finden 'Di, 19. Apr' –

+0

Hallo @AminahNuraini, ich habe Probleme, es auch zu finden .. Deshalb habe ich die Frage geschrieben .. Es tut mir leid, wenn ich nicht klar genug war .. –

Antwort

0

dieses Versuchen Sie stattdessen:

import urllib 
from bs4 import BeautifulSoup 

url = "http://www.flipkart.com/philips-qt4005-15-trimmer/p/itmdze53vthypqhb?pid=SHVDGGZPC8PXJ7HR&al=wUEQZ4vph4oJqeH0CGNkrsldugMWZuE7eGHgUTGjVrpjizeD%2FNvlpAEwWx6I1Qy9R9ViMaFmI%2Bc%3D&ref=L%3A-1246372967349401781&srno=b_1" 
html = urllib.urlopen(url).read() 

soup = BeautifulSoup(html) 

Diese die ganze Webseite sammeln. Nun, wenn Sie die Absatz-Tags oder etwas suchen möchten, können Sie diese Linie benutzen.

tags=soup('p') 

Dann können Sie eine Schleife durch die Tags und die Suche nach Daten, die Sie interessiert sind

0

Wahrscheinlich beziehen Sie sich auf die RECENT TOP REVIEWS Liste. Die Daten haben eine spezifische Klasse review-date.

Versuchen Sie, auf das filtern:

soup.findAll('p', class_="review-date")