Ich versuche, einige einfache Wörterbuchinformationen von einer HTML-Seite zu kratzen. Bis jetzt bin ich in der Lage, alle Wörter zu drucken, die ich auf der IDE benötige. Mein nächster Schritt war, die Wörter in ein Array zu übertragen. Mein letzter Schritt war, das Array als CSV-Datei zu speichern ... Wenn ich meinen Code ausführe, scheint er keine Informationen nach dem 1309. oder 1311. Wort aufzunehmen, obwohl ich glaube, dass es über 1 Million auf der Webseite gibt. Ich stecke fest und wäre sehr dankbar für jede Hilfe. DankePython BeautifulSoup csv scraping
from bs4 import BeautifulSoup
from urllib import urlopen
import csv
html = urlopen('http://www.mso.anu.edu.au/~ralph/OPTED/v003/wb1913_a.html').read()
soup = BeautifulSoup(html,"lxml")
words = []
for section in soup.findAll('b'):
words.append(section.renderContents())
print ('success')
print (len(words))
myfile = open('A.csv', 'wb')
wr = csv.writer(myfile)
wr.writerow(words)