ich effektiv das gleiche Problem wie diese Frage zu lösen versuchen:die Suche nach einer Datenbank von n-Gramm entnommen aus wikipedia
Finding related words (specifically physical objects) to a specific word
minus der Anforderung, dass Worte physikalische Objekte repräsentieren. Die Antworten und die bearbeitete Frage scheinen darauf hinzuweisen, dass ein guter Anfang darin besteht, eine Liste der Häufigkeit von N-Grammen zu erstellen, wobei Wikipedia-Text als Korpus verwendet wird. Bevor ich mit dem Herunterladen des Mammut-Wikipedia-Dumps beginne, weiß jemand, ob eine solche Liste bereits existiert?
PS, wenn das ursprüngliche Plakat der vorherigen Frage dies sieht, würde ich gerne wissen, wie Sie über die Lösung des Problems ging, wie Ihre Ergebnisse ausgezeichnet scheinen :-)
Ja, ich habe diesen Datensatz berücksichtigt - sogar noch erschreckender als die Wikipedia-Dumps! – mojones
Es ist nicht für die kommerzielle Nutzung verfügbar – Joel
Hat jemand einen Strom davon gefunden? – placeybordeaux