Ich versuche, Daten aus der folgenden Seite zu extrahieren:Alternative zu innerhtml, die Header enthält?
Which, bequem und ineffektiv genug, die alle Daten als CSV-Datei im Header eingebettet ist, als eine Variable namens gs_csv gesetzt.
Wie extrahiere ich das? Document.body.innerhtml
Überspringt die Kopfzeile, wo die Daten sind, was ist die Alternative, die die Kopfzeile enthält (oder besser noch den Wert, der gs_csv
zugeordnet ist)?
(Sorry, neu zu all dem, ich habe viele Dokumente durchsucht und viele von ihnen versucht, aber bisher hat noch nichts funktioniert).
Dank Sinan (das ist meist seine Lösung in Python transkribiert).
import win32com.client
import time
import os
import os.path
ie = Dispatch("InternetExplorer.Application")
ie.Visible=False
ie.Navigate("http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#")
time.sleep(20)
webpage=ie.document.body.innerHTML
s1=ie.document.scripts(1).text
s1=s1[s1.find("gs_csv")+8:-11]
scriptfilepath="c:\FO Share\bmreports\script.txt"
scriptfile = open(scriptfilepath, 'wb')
scriptfile.write(s1.replace('\n','\n'))
scriptfile.close()
ie.quit
ie.quit (link ausgelassen, da ich ein Neuling bin.) Wenn es hilft, ist dies ein Python-Skript, wie folgt Import win32com.client Importzeit import os Import os.path ie = Dispatch ("InternetExplorer.Application") ie.Visible = True dh .Navigate ("http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#") Zeit. schlafen (20) webpage = ie.document.body # .innerHTML logfilepath = "p: \\ meine Dokumente \\ Python \\ webwipetmp.txt" log_file = open (logfilepath, "wb") log_file.write (Homepage) log_file.close() Seite Druck ie.quit – Brendan
Können Sie eine HTTP-Anfrage machen, bekommen die gesamte Zeichenfolge, und den Header grep? – DonkeyMaster