2016-07-12 5 views
1

Ich habe eine Reihe von HTML-Dateien, die ich möchte das erste Tag in jeder Datei ziehen. Da die Dateien kein bestimmtes Tag haben, das immer das erste in der Datei sein wird, bin ich mir nicht sicher, wie das geht.Suchen ersten Tag in HTML-Datei mit BeautifulSoup

Als Beispiel wäre für das folgende Snippet das erste Tag <html>.

<html> 
<head> 
    <title> 
    insert title here 
    </title> 
</head> 
</html> 

Jede Art und Weise dies mit BeautifulSoup zu erreichen (oder möglicherweise ein anderes Tool)? Vielen Dank im Voraus :)

+0

Wenn Sie HTML-Dateien haben, warum Sie nicht nur die erste Zeile suchen, die mit '<' starten? –

+0

könnte ich, aber da ich bs4 für andere Operationen auf den Dateien sowieso verwenden muss, habe ich mich gefragt, ob es etwas eingebaut wurde, das helfen könnte. Ich werde es wahrscheinlich einfach so machen, wie du sagst, wenn ich keinen besseren Weg finden kann – atarw

+0

Das erste Tag in allen HTML-Dokumenten ist '' also nicht sicher, was genau deine Frage ist. –

Antwort

1

Sie BeautifulSoup in diesem Fall verwenden können, gibt nur find() auf einem BeautifulSoup Objekt - es das erste Element in dem Baum finden würde. .name würden Sie den Tag-Namen geben:

from bs4 import BeautifulSoup 

data = """ 
<html> 
<head> 
    <title> 
    insert title here 
    </title> 
</head> 
</html> 
""" 

soup = BeautifulSoup(data, "html.parser") 
print(soup.find().name)