2010-02-24 11 views
6

ich effektiv das gleiche Problem wie diese Frage zu lösen versuchen:die Suche nach einer Datenbank von n-Gramm entnommen aus wikipedia

Finding related words (specifically physical objects) to a specific word

minus der Anforderung, dass Worte physikalische Objekte repräsentieren. Die Antworten und die bearbeitete Frage scheinen darauf hinzuweisen, dass ein guter Anfang darin besteht, eine Liste der Häufigkeit von N-Grammen zu erstellen, wobei Wikipedia-Text als Korpus verwendet wird. Bevor ich mit dem Herunterladen des Mammut-Wikipedia-Dumps beginne, weiß jemand, ob eine solche Liste bereits existiert?

PS, wenn das ursprüngliche Plakat der vorherigen Frage dies sieht, würde ich gerne wissen, wie Sie über die Lösung des Problems ging, wie Ihre Ergebnisse ausgezeichnet scheinen :-)

Antwort

1

Google as a publicly available Terabyte n-Garam Datenbank (bis zu 5).
Sie können in 6 DVDs bestellen oder finden Sie einen Torrent, der es hostet.

+0

Ja, ich habe diesen Datensatz berücksichtigt - sogar noch erschreckender als die Wikipedia-Dumps! – mojones

+3

Es ist nicht für die kommerzielle Nutzung verfügbar – Joel

+0

Hat jemand einen Strom davon gefunden? – placeybordeaux