2016-03-04 7 views
7

Ich bin ein Pandio-Neuling, also muss ich etwas Offensichtliches vermissen. Ich versuche, MS Word generierte HTML-Datei in Markdown zu konvertieren. Hier ist ein Test html:Warum Pandov Spanne und Div-Tags bei der Konvertierung von HTML zu Markdown hält?

<html xmlns="http://www.w3.org/1999/xhtml"> 
<head> 
    <title></title> 
</head> 
<body> 
    <div class="Section1"> 
    <p class="Question"><span style="FONT-SIZE: 10pt">Today</span> <span style= 
    "FONT-SIZE: 10pt">is</span> <span lang="HR" style= 
    "FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span style= 
    "FONT-SIZE: 10pt">nice</span> <span style="FONT-SIZE: 10pt">day</span> 
    </p> 
    </div> 
</body> 
</html> 

und ich versuche, es zu konvertieren mit:

pandoc -f html -t markdown test.html -o test.md 

Ich erwartete "Heute ist ein schöner Tag", bekam aber:

<div class="Section1"> 

<span style="FONT-SIZE: 10pt">Today</span> <span 
style="FONT-SIZE: 10pt">is</span> <span lang="HR" 
style="FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span 
style="FONT-SIZE: 10pt">nice</span> <span 
style="FONT-SIZE: 10pt">day</span> 

</div> 

Warum wurde das Div aufbewahrt? Warum wurden die Spannweiten beibehalten?

Antwort

12

Sie müssen einige extensions ausschalten. Entweder auf der HTML-Eingabeseite:

$ pandoc -f html-native_divs-native_spans -t markdown test.html -o test.md 

Oder auf der Abschlag Ausgangsseite:

$ pandoc -f html -t markdown-raw_html-native_divs-native_spans-fenced_divs test.html -o test.md