Ich versuche, Python und schöne Suppe zu verwenden, um den Inhalt Teil der unten angegebenen Tags zu extrahieren:Get-Meta-Tag Inhalt Eigenschaft mit BeautifulSoup und Python
<meta property="og:title" content="Super Fun Event 1" />
<meta property="og:url" content="http://superfunevents.com/events/super-fun-event-1/" />
BeautifulSoup Ich erhalte die Seite zu laden, ganz gut und finde andere Sachen (das packt auch die Artikel-ID aus dem ID-Tag, das in der Quelle versteckt ist), aber ich kenne nicht die richtige Art, den HTML-Code zu suchen und diese Bits zu finden. Ich habe Varianten von find und findAll vergeblich versucht . Die Code iteriert über eine Liste von URLs derzeit ...
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#importing the libraries
from urllib import urlopen
from bs4 import BeautifulSoup
def get_data(page_no):
webpage = urlopen('http://superfunevents.com/?p=' + str(i)).read()
soup = BeautifulSoup(webpage, "lxml")
for tag in soup.find_all("article") :
id = tag.get('id')
print id
# the hard part that doesn't work - I know this example is well off the mark!
title = soup.find("og:title", "content")
print (title.get_text())
url = soup.find("og:url", "content")
print (url.get_text())
# end of problem
for i in range (1,100):
get_data(i)
Wenn jemand kann mir das etwas helfen sortieren Sie die og zu finden: Titel und og: Inhalte, die fantastisch sein würde!
ist kein eingebaut für get Inhalt, sonst Rückfall auf Standard? –
@ChristopheRoussy Yup, das ist genau das, was in der Antwort gezeigt wird. Außerdem können Sie das Präsenzattribut "content" mit 'soup.find (" meta ", property =" og: title ", content = True)' verstärken. Vielen Dank. – alecxe