2016-06-06 18 views
0

Ich habe 20000 Nachrichten Dokumente, um Thema Modellierung darauf zu laufen:Wie wird das Topic-Modell auf 20000 Dokumente gleichzeitig ausgeführt?

Ich möchte das Thema Dynamik und Evolution aus den Dokumenten zu sehen. Ich habe versucht, das folgende Batch-Skript mit Topic-Modellierung von Mallet zu verwenden, aber nicht funktioniert.

#!/bin/bash 
for filename in /Users/JasonDou/code/internet_finance/bydocafterseg2; do 
    ./bin/mallet import-dir --input /Users/JasonDou/code/internet_finance/bydocafterseg2/159047443.txt --output bydoc-input.mallet --keep-sequence --remove-stopwords 
done 

Antwort

1

Sie vermissen einen Stern:

#!/bin/bash 
for filename in "/Users/JasonDou/code/internet_finance/bydocafterseg2/"*; do 
    [ -e "$filename" ] || continue 
    ./bin/mallet import-dir --input "$filename" \ 
     --output bydoc-input.mallet --keep-sequence --remove-stopwords 
done 

Die obige Liste iterieren über jede Datei in bydocafterseg2. Sie können es in alle .txt Dateien mit ändern: "bydocafterseg2/"*".txt"

+0

es hilft! Ich habe eine Follow-up-Frage: Wie kann ich die Ausgabedatei mit dem obigen Dateinamen benennen? wie "$ filename" -input.mallet? – Jason

+0

'--output" $ filename-input.mallet "'? – andlrc