Ich schreibe gerade einen kleinen Test webscraper mit den Python-Anfragen und Lxml-Bibliotheken. Ich versuche, den Text aus den Zeilen einer Tabelle aus this site mithilfe von Xpaths zu extrahieren, um die Tabelle eindeutig zu identifizieren. Da die Tabelle selbst nur anhand ihres Klassennamens identifiziert werden kann und der Klassenname nicht eindeutig ist, musste ich das Eltern-Element div verwenden, um die Tabelle anzugeben. Die Tabelle in Frage, dass die Termine der Saison bestellen, filmen, und airdates für die Show Game of Thrones auflistet, die ich mit dem folgenden Pfad wählen bin versucht:Wie man Text von einem HTML-Tabellenelement analysiert
tree.xpath('//div[@id = "mw-content-text"]//table[@class = "wikitable"]//text()')
Aus irgendeinem Grund, wenn ich Wenn Sie diesen Pfad in der Shell ausgeben, wird eine leere Liste zurückgegeben. Ich glaube, dass das Drucken dieses Pfads einfach den gesamten Text in der Tabelle anzeigen würde, den ich versuchte, um sicherzustellen, dass ich den Inhalt tatsächlich abrufen konnte. Allerdings müsste ich tatsächlich jede Zeile der Tabelle drucken.
Gibt es etwas falsch mit diesem XPath? Wenn ja, wie wird der Tabelleninhalt gedruckt?