2014-04-12 8 views
5

Ich weiß, dass das LDA-Modell für GENSIM nach dem Training, ist das Thema für ein unsichtbares Dokument erhalten kann:GENSIM erhalten Thema für ein Dokument (gesehen Dokument)

lda = LdaModel(corpus, num_topics=10) 
doc_lda = lda[doc_bow] 

Aber wie über die Dokumente, die bereits sind für das Training verwendet? Ich meine, gibt es eine Möglichkeit, das Thema für ein Dokument im Korpus zu bekommen, das im Training verwendet wurde, ohne es wie ein neues Dokument zu behandeln?

Antwort

4

Informationen aus einzelnen Dokumenten werden in das Modell destilliert und dann vergessen. Es werden keine Informationen pro Dokument gespeichert (allgemeiner: keine Informationen, die O(#docs) Speicher benötigen).

+0

Aber wenn ich die Themenverteilung für das trainierte Dokument bekommen möchte, damit ich eine Art Clustering-Operation haben kann, was kann ich dann tun? – storen