Sie könnten es mit COM tun. Wenn Sie jedoch viele Dateien scannen, kann dies schmerzhaft langsam sein, da Sie mit dem Text über Word selbst interagieren werden.
Hier einige Python-Code unter Verwendung von (sorry, ich habe nicht viel .Net wissen, aber die COM-Funktionen ähnlich sein)
Ich vermute, Sie haben könnten, um die Leerzeichen ein wenig trimmen bis zu erhalten gute Übereinstimmungen.
import os, win32com.client
def doc_has_phrase(filename, phrase):
found = False
app = win32com.client.Dispatch('Word.Application')
doc = app.Documents.Open(filename, False, False, False)
if phrase in doc.Content.Text.lower():
found = True
app.Quit()
return found
phrase = 'key phrase in lowercase'
valid_types = ['doc']
path = "C:\\Path\\To\\Files\\"
docs = dict ([(f, None) for f in os.listdir (path) if f[-3:] in valid_types])
for doc in docs:
print doc_has_phrase(path+doc, phrase), path+doc
DANKE !! Welche Referenz muss ich hinzufügen, damit dies funktioniert? Wenn ich die DLL nicht habe, wo finde ich sie? –
@Josh, die Bibliothek ist Teil von Word. Wenn Sie also Word auf Ihrem Computer installiert haben, haben Sie es. –