2009-04-17 6 views

Antwort

36

Dieses Modul wird dazu beitragen, das zu tun, was Sie beschreiben:

http://www.freewisdom.org/projects/python-markdown/Using_as_a_Module

Sobald Sie den Abschlag in HTML konvertiert haben, können Sie einen HTML-Parser verwenden, um die Klartext-Streifen aus.

Code könnte wie folgt aussehen:

from BeautifulSoup import BeautifulSoup 
from markdown import markdown 

html = markdown(some_html_string) 
text = ''.join(BeautifulSoup(html).findAll(text=True)) 
+1

scheint es wie in HTML konvertieren .. Ich muss in einfachen Text konvertieren .. wie stackoverflow, in der Homepage Fragezusammenfassung, entfernt es die Formatierung – Krish

+0

Ich habe meine Antwort aktualisiert, um Text zu bekommen –

+0

Danke Coonj .. Gut zu wissen über BeatifulSoup – Krish

2

kommentiert und entfernt es, weil ich endlich ich denke, die reiben hier sehen: Es ist leichter sein kann Ihren Abschlag Text zu HTML und entfernen Sie HTML aus dem Text zu konvertieren . Mir ist nichts bewusst, um Abschriften effektiv vom Text zu entfernen, aber es gibt viele HTML-Klartext-Lösungen.