from nltk.tokenize import sent_tokenize, word_tokenize, RegexpTokenizer
fileName = input("Enter file name: ")
f = open(fileName)
raw = f.read()
tokenizer = RegexpTokenizer(r'\w+')
diese Interpunktion auslässt, und hält nur Worte print (tokenizer.tokenize (roh)) // diese druckt alle Wörter print (sent_tokenize (raw))Wie nur Worte Ausgabe, die drei Buchstaben oder mehr mit nltk
print('number of sentences equal',len(sent_tokenize(raw)))
print('number of words equal',len(tokenizer.tokenize(raw)))
average =(len(tokenizer.tokenize(raw))/len(sent_tokenize(raw)))
print('average word per senetnces eqauls',average)