2011-01-03 10 views
0

Gibt es eine Möglichkeit, Lesbarkeit (Textextraktionsalgorithmus) und einen benutzerdefinierten Algorithmus in Python zu verwenden, um Links aus Text zu extrahieren?Gibt es eine Möglichkeit, Lesbarkeit (Textextraktionsalgorithmus) und einen benutzerdefinierten Algorithmus in Python zu verwenden, um Links aus Text zu extrahieren?

Ich möchte herausfinden, eine Möglichkeit zum Extrahieren von Links, die im Textkörper sind.

1.) Ich verwende die Lesbarkeit in Python https://github.com/gfxmonk/python-readability

2.) Ich mag irgendwie den extrahierten Text zu dem ursprünglichen HTML-Text vergleichen, um Links im eigentlichen Körper eines Artikel zu extrahieren.

Antwort

2

Nun, es sieht so aus, als ob es einen BeautifulSoup-Baum zurückgibt. So sollten Sie in der Lage sein, etwas zu tun:

article = page.summary() # Extract article using readability 
article.findAll("a")  # Return a list of all links in the article 
+0

BeautifulSoup ist definitiv der Weg zu gehen. –

+1

@Sri: Lesbarkeit verwendet bereits BeautifulSoup. Es wurde entwickelt, um eine Seite auf den Inhalt zu reduzieren, abzüglich Werbung, Navigation und so weiter. –