2013-07-02 5 views
7

Ich bin ein Neuling in der LDA und ich möchte es in meiner Arbeit verwenden. Es treten jedoch einige Probleme auf.Wie die Anzahl der Themen für LDA zu bestimmen?

Um die beste Leistung zu erhalten, möchte ich die beste Thema Nummer schätzen. Nach der Lektüre von „Finding Wissenschaftlichen Themen“, weiß ich, dass ich logP berechnen kann (w | z) zunächst und dann das harmonische Mittel einer Reihe von P verwenden (w | z) P (w | T) zu schätzen.

Meine Frage ist, was ist die „eine Reihe von“ bedeuten?

Sorry für mein Englisch und Vielen Dank für Ihre attenion.

Antwort

6

Leider gibt es keine harte Wissenschaft ergibt die richtige Antwort auf Ihre Frage. Soweit ich weiß, ist hierarchical dirichlet process (HDP) möglicherweise der beste Weg, um die optimale Anzahl von Themen zu erreichen.

Wenn Sie für tiefere Analysen suchen, berichtet this paper on HDP die Vorteile der HDP in der Anzahl der Gruppen zu bestimmen.

2

Zuerst verwenden einige Leute harmonisches Mittel, um optimale no.of Themen zu finden, und ich versuchte auch, aber Ergebnisse sind unbefriedigend. So gemäß meinem Vorschlag, wenn Sie R verwenden, dann wird Paket "ldatuning" nützlich sein. Es hat vier Metriken zur Berechnung der optimalen Anzahl von Parametern. Wiederum Perplexität und Log-Likelihood basierte V-falt Kreuzvalidierung sind auch sehr gute Option für die beste Thema Modellierung. V-Fold Kreuzvalidierung sind ein wenig zeitaufwendig für große Dataset.Sie ​​können sehen "Eine heuristische Ansatz, um eine entsprechende Anzahl von Themen zu bestimmen in der Themenmodellierung ". Wichtige Links: https://cran.r-project.org/web/packages/ldatuning/vignettes/topics.html https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4597325/