In NLTK, können Sie leicht die Zählungen für die Wörter in einem Text, sagen wir, berechnen, indemNLTK FreqDist, plot die normalisierten counts?
tunfrom nltk.probability import FreqDist
fd = FreqDist([word for word in text.split()])
wo Text eine Zeichenfolge ist. Nun können Sie die Verteilung als
fd.plot()
plotten und das gibt Ihnen eine schöne Liniendiagramm mit den Zählungen für jedes Wort. In der docs wird kein Weg erwähnt, stattdessen die tatsächlichen Frequenzen zu plotten, was in fd.freq(x)
zu sehen ist.
Jeder einfache Weg, um die normalisierten Zählungen zu plotten, ohne die Daten in andere Datenstrukturen zu übernehmen, normalisieren und getrennt plotten?
Danke. Schade, dass es keine plot() -Methode gibt, um ein Diagramm als FreqDist zu zeigen. Außerdem hat FreqDist bereits eine 'freq'-Methode, die normalisiert, aber das löst nicht mein Problem, direkt vom Objekt zu plotten. –
Es könnte wenig Sinn ergeben, Wahrscheinlichkeiten zu plotten, was ist in diesem Fall Ihre x- und y-Achse? – alvas
Statt der Anzahl möchte ich die Häufigkeit des Auftretens, das ist alles. Macht Sinn, ich möchte wissen, was der Anteil eines Wortes in einem Korpus ist. Ich verstehe, dass das Wort "Häufigkeit" in der Linguistik verwendet wird, um zu zählen, aber ich würde das Verhältnis mögen. –