2010-01-19 3 views
5

So habe ich Dateien ....Ist es möglich, Meta-Informationen aus MS-Office-Dateien und/oder PDFs mit PHP zu extrahieren?

.doc 
.docx 
.xls 
.xlsx 
and .pdf 

, die auf dem meinem Server sind.

Ist es möglich (und wenn es ist, wie), die Metadaten aus diesen Dateien mit PHP zu extrahieren? Ich suche nach Dingen wie Autor, Schlüsselwörtern, Titel, etc ...

In Office-Dokumenten ist es die Informationen zusammen mit den Dokumenteigenschaften (Datei ... Eigenschaften ... Zusammenfassung für 2003, Prep .. .Eigenschaften für 2007).

In PDFs finden Sie Informationen in Dokumenteigenschaften.

Dies ist nicht auf einem Windows-Server.

+0

In PHP ist alles möglich, es ist vollständig abgeschlossen. Ein tragbarer und einfacher Weg das zu tun ist jedoch eine andere Frage. – Earlz

Antwort

2

Ich habe es geschafft, eine Menge Meta-Informationen mit XPDF auf einem Linux-System vor ein paar Jahren zu extrahieren. Heutzutage würde ich sagen, Zend_PDF ist Ihre beste Wette. Habe es nicht selbst benutzt, sieht aber gut aus und verspricht alles was man braucht. Scheint auch keine Bibliotheksabhängigkeiten zu haben.

Für Word .DOCs, wenn Sie keinen besseren Weg finden, schließen Sie eine OpenOffice Server-Instanz/Befehlszeile an und konvertieren Sie die Dateien in ODT, das ist XML und Parseable. Wenn es nicht möglich ist, die Metadaten pro Makro zu extrahieren - sollte es sein, aber ich weiß nicht, wie viel Arbeit es ist. This OpenOffice Forum entry gibt eine Tonne von Startpunkten für die automatisierte Konvertierung.

Die ... X-Formate sind eine Art von XML, daher sollte es einfach möglich sein, die Metadaten von ihnen zu holen. Alternativ können Sie auch hier die Konvertierungsfilter von OpenOffice verwenden, wenn sie die Metadaten transportieren.

+0

So weit, so gut - Zend_PDF hat den Trick für PDFs geschafft. - Als nächstes kommt die Office-Dokumentation. – Jason

+1

Schön! Achten Sie darauf, uns auf dem Laufenden zu halten, ich bin mir sicher, dass es für viele Leute nützlich sein wird. Vielleicht ist das von zusätzlichem Interesse, oder kann Ihnen einige Hinweise geben. http://meta-extractor.sourceforge.net/ –