2016-03-22 13 views
0

ich das Tutorial von GENSIM http://rare-technologies.com/deep-learning-with-word2vec-and-gensim/ Implementierung, die die Linie Sätze = word2vec.Text8Corpus ('/ tmp/text8') jedoch schließt, wenn ich das Programm, das ich das bekommen laufen Fehler, dass text8 nicht existiert. Wenn ich durch den Code schaue, sehe ich, dass Text8Corpus eine Methode ist, die Argumenttyp-Objekte akzeptiert. Die Anweisungen zeigen, dass es solltewas ist ('/ tmp/text8') GENSIM

http://mattmahoney.net/dc/text8.zip

übergeben werden, wenn ich diese Datei manuell herunterladen und versuchen, die resultierende IMBD unkomprimierten Datensatz zu übergeben wie ich höre, dass die Berechtigungen verweigert. Hat jemand Einblick in dieses Problem? Soll ich das imdb-Dataset selbst heruntergeladen haben oder sollte es im Code einige Zeiger geben, die das automatisch machen?

+0

Sind Sie auf Windows/Linux/osx/andere? Sieht für mich so aus als müsste man die text8.zip im '/ tmp /' Ordner entpacken – Noelkd

Antwort

3

Wie er in seiner Beschreibung sagt, müssen Sie die Datei in/tmp Verzeichnis herunterladen und entpacken. Sie können dies wie folgt tun:

wget http://mattmahoney.net/dc/text8.zip -P /tmp 
unzip text8.zip 

Nun sollten Sie in Ordnung sein;)

+0

Sache ist, ich habe die Datei runtergeladen und upzip, hab aber Berechtigungsprobleme bekommen. wget das scheint nicht auf Windows zu arbeiten – Steve

+0

ok, ich dachte, du wärst auf Linux, dann kannst du einfach% tmp% in deine Windows-Suche tippen und die Datei dort kopieren. Wenn Sie Berechtigungsprobleme haben, versuchen Sie, die Datei in ein anderes Verzeichnis zu ändern und den Code zu aktualisieren. – arcticless

+0

danke für die Hilfe – Steve