Ich baue ein Sprachmodell in R, um ein nächstes Wort im Satz basierend auf den vorherigen Wörtern vorherzusagen. Derzeit ist mein Modell ein einfaches Ngram-Modell mit Kneser-Ney-Glättung. Er sagt das
Ich habe versucht, zu verstehen, das text2vec Paket von http://dsnotes.com/articles/text2vec aber im folgenden Schritt finden. Wieder da alle auf corpus baunahe Funktionen Streaming-API haben, müssen
edit: Das neue Paket text2vec ist ausgezeichnet, und löst dieses Problem (und viele andere) wirklich gut. text2vec on CRAN text2vec on github vignette that illustrates ngram tokenization Ich habe eine