2016-07-18 19 views
0

Ich schreibe eine Python-Anwendung, die ein Google-Dokument aus Google Drive als Markdown abrufen muss.Wie importiere ich ein Google-Dokument in die Python-App als Markdown?

Ich bin auf der Suche nach Ideen für das Design und bestehenden Open-Source-Code.

Soweit ich weiß, bietet Google keinen Export als Markdown. Ich denke, das bedeutet, ich müsste herausfinden, welches der verfügbaren Download-/Exportformate für die Konvertierung in Markdown am besten geeignet ist.

Der Inhalt des Dokuments enthält keine Elemente, die von Markdown nicht unterstützt werden.

EDIT: Ich möchte nicht Python-Software vermeiden, um das Setup so einfach wie möglich zu halten.

Antwort

1

Sie möchten vielleicht einen Blick auf Pandoc werfen, die Konvertierungen unterstützt, d. H. Von docx zu markdown. Es gibt mehrere Python-Wrapper für Pandoc, z. B. pypandoc.

Nachdem ein Dokument aus Google Drive in docx-Format zu holen, ist die Umwandlung so einfach wie:

import pypandoc 
markdown_output = pypandoc.convert_file('Document.docx', 'markdown') 
+0

Edited die Frage ein wenig, wodurch Pandoc eine schlechte Wahl, da es nicht um reinen Python ist. Ich denke stattdessen an https://github.com/mwilliamson/python-mammoth. – Rubinous

1

Google Drive eine "Zip HTML" Export-Option bietet.

enter image description here

Verwenden Sie die Python module html2text den HTML-Code in Markdown zu konvertieren.

html2text ist ein Python-Skript, das eine HTML-Seite in sauberen, leicht lesbaren ASCII-Text umwandelt. Besser noch, dass ASCII auch ein gültiges Markdown ist (ein Text-zu-HTML-Format).

>>> import html2text 
>>> 
>>> print(html2text.html2text("<p><strong>Zed's</strong> dead baby, 
<em>Zed's</em> dead.</p>")) 
**Zed's** dead baby, _Zed's_ dead.