Ich versuche mein Projekt zu beschleunigen, um Worthäufigkeiten zu zählen. Ich habe 360 + Textdateien, und ich muss die Gesamtzahl der Wörter und die Anzahl der Male jedes Wort aus einer anderen Liste von Wörtern erhalten. Ich weiß, wie man das mit einer einzigen Textdatei macht.Python - Suche nach Worthäufigkeiten der Wörterliste in der Textdatei
>>> import nltk
>>> import os
>>> os.chdir("C:\Users\Cameron\Desktop\PDF-to-txt")
>>> filename="1976.03.txt"
>>> textfile=open(filename,"r")
>>> inputString=textfile.read()
>>> word_list=re.split('\s+',file(filename).read().lower())
>>> print 'Words in text:', len(word_list)
#spits out number of words in the textfile
>>> word_list.count('inflation')
#spits out number of times 'inflation' occurs in the textfile
>>>word_list.count('jobs')
>>>word_list.count('output')
Es ist zu langweilig, um die Frequenzen von "Inflation", "Arbeitsplätze", "Ausgabe" individuell zu bekommen. Kann ich diese Wörter in eine Liste aufnehmen und die Häufigkeit aller Wörter in der Liste gleichzeitig finden? Grundsätzlich this mit Python.
Beispiel: Statt dessen:
>>> word_list.count('inflation')
3
>>> word_list.count('jobs')
5
>>> word_list.count('output')
1
Ich möchte, dies zu tun (ich weiß, das ist nicht wirklich Code ist, ist es das, was ich um Hilfe bin gefragt auf):
>>> list1='inflation', 'jobs', 'output'
>>>word_list.count(list1)
'inflation', 'jobs', 'output'
3, 5, 1
Meine Wörterliste wird 10-20 Begriffe haben, daher muss ich Python nur auf eine Liste von Wörtern hinweisen können, um die Anzahl der Wörter zu erhalten. Es wäre auch schön, wenn der Ausgang der Lage ist, Kopie sein + Einfügen in eine Excel-Tabelle mit den Worten als Spalten und Frequenzen als Zeilen
Beispiel:
inflation, jobs, output
3, 5, 1
Und schließlich kann jemand helfen automatisiert dies für alle Textdateien? Ich denke, ich zeige Python einfach auf den Ordner und es kann das obige Wort aus der neuen Liste für jede der über 360 Textdateien zählen. Scheint einfach, aber ich bin ein bisschen fest. Irgendeine Hilfe?
Ein Ausgang wie das wäre fantastisch: Filename1 Inflation, Jobs, Ausgabe 3, 5, 1
Filename2
inflation, jobs, output
7, 2, 4
Filename3
inflation, jobs, output
9, 3, 5
Dank!
ich jetzt mehr Stunden mit Zähler täuscht habe, und es immer noch nicht bekommen kann. – CoS
Das obige Beispiel wird mir alle eindeutigen Wörter in meiner Textdatei anzeigen (in meinem Fall über 3000 eindeutige Wörter). Ich brauche nur die Tally für 10-20 spezifische Wörter in der Textdatei. – CoS
Ich denke, das wird für die Liste funktionieren, großes Dankeschön! Ich starrte stundenlang auf diese Counter-Seite haha – CoS