richtig, also arbeite ich an einem Python-Skript (Python 2.7), das die Metadaten aus OLE-Dateien extrahieren wird. Ich verwende OleFileIO_PL und es funktioniert perfekt Datei mit OLE-Dateien 97 - 2003, aber jeder später, dass es nur besagt, dass es kein OLE2-Dateityp ist.Warum OleFileIO_PL nur mit DOC-Dateitypen und nicht DOCX Python funktioniert?
Wie kann ich meinen Code so ändern, dass er sowohl .doc als auch .docx unterstützt? Das Gleiche gilt für PPT- und PPTX usw.
Vielen Dank im Voraus
Source Code:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import OleFileIO_PL
import StringIO
import optparse
import sys
import os
def printMetadata(fileName):
data = open(fileName, 'rb').read()
f = StringIO.StringIO(data)
OLEFile = OleFileIO_PL.OleFileIO(f)
meta = OLEFile.get_metadata()
print('Author:', meta.author)
print('Title:', meta.title)
print('Creation date:', meta.create_time)
meta.dump()
OLEFile.close()
def main():
parser = optparse.OptionParser('usage = -F + Name of the OLE file with the extention For example: python Ms Office Metadata Extraction Script.py -F myfile.docx ')
parser.add_option('-F', dest='fileName', type='string',\
help='specify OLE (MS Office) file name')
(options, args) = parser.parse_args()
fileName = options.fileName
if fileName == None:
print parser.usage
exit(0)
else:
printMetadata(fileName)
if __name__ == '__main__':
main()
Eine schnelle Suche findet [openxmllib] (https://pypi.python.org/pypi/openxmllib/1.0.7), die aussieht wie es für die neueren helfen könnte Formate. – glibdud
Vielen Dank Ich habe versucht, openxmllib nicht zu lügen Ich hatte eine Menge Probleme bei der Installation, aber ich habe es geschafft. Jetzt, da es installiert ist, werde ich mir die Dokumentation ansehen und ein Metadaten-Extraktionsskript schreiben. Sollte hoffentlich funktionieren. Danke für Ihre Hilfe. –