2016-04-27 9 views
1

Ich dachte, das könnte schon mal besprochen worden sein, aber irgendwie konnte ich keine Antworten finden, also hier ist es.Wie interpretiere ich Gensim-Themen richtig?

Im Folgenden sind die Themen mit Gensim lsi aus einer Kundenumfrage generiert. Meine Fragen sind:

  1. was bedeuten die Minus- und Pluszeichen vor den Wörtern?
  2. Hier habe ich 5 Themen generiert und ich könnte mehr generiert haben. Wie ermittle ich, wie viele Themen optimal sind? Zum Beispiel, vielleicht statistisch nach dem dritten Thema wird alles andere nur trivial sein.

Alle Vorschläge sind willkommen.

0,527 * "Interesse" + 0,475 * "niedriger" + 0,376 * "Preise" + 0,338 * "Rate" + 0,324 * "gut" + 0,257 * "Service" 0,671 * "gut" + 0,586 * "Service "+ -0.254 *" Zinsen "+ -0.251 *" niedriger "+ -0.159 *" Rate "+ -0.150 *" Preise " 0.600 *" groß "+ 0.351 *" leicht "+ 0.337 *" Belohnungen "+ 0.242 * "verwenden" + -0,167 * "Service" + 0,160 * "wie" -0,503 * "Raten" + 0,499 * "Rate" + -0,39 * "groß" + 0,364 * "hoch" + -0,289 * "niedriger" + 0.167 * "einfach" -0.608 * "groß" + 0.362 * "leicht" + -0.303 * "rate" + 0.275 * "rates" + 0.244 * "verwenden" + -0.227 * "hoch"

Antwort

1

Die wichtigsten Mechanismus hinter LSI ist Singulärwertzerlegung (SVD) auf der Term-Dokument-Matrix (TDM). Ich werde hier nicht sehr ins Detail gehen, aber Sie können über SVD on wikipedia lesen, wenn Sie mögen.

Die generierten Themen sind lineare Kombinationen von Begriffen. Diese Linearkombinationen werden ausgewählt (unter Verwendung von SVD), um eine "Niedrigrang-Approximation" des TDM zu erzeugen.

Die Größe der Gewichte auf den Wörtern kann als wichtig erachtet werden: wie viel sie in der Annäherung an das ursprüngliche TDM wichtig sind. Oder, lockerer, wie wichtig das Thema bei der Beschreibung des Korpus ist, auf dem das TDM basiert.

Die Zeichen der Gewichte sind nur relativ zueinander wichtig (Sie könnten zum Beispiel alles mit -1 multiplizieren und wenn Sie die linearen Kombinationen richtig interpretieren, werden Sie zur gleichen Interpretation kommen). Wenn jedes Dokument auf dem Grad bewertet werden kann, zu dem es jedes Thema hat, dann sagt Ihnen das Zeichen, auf welche Weise das zugehörige Wort das Dokument verschiebt. In der von Ihnen bereitgestellten Ausgabe sollten beispielsweise Dokumente mit vielen Aufschriften der Wörter "interest" und "rates" im zweiten Thema niedrig sein. Dokumente mit vielen Auftritten von "gut" und "service" sollten hingegen im zweiten Thema hoch sein.

Um die optimale Anzahl von Themen zu bestimmen, ist es kontextspezifisch, hängt aber hauptsächlich von der Größe des Korpus ab. Hier sind einige allgemeine Richtlinien (aus this answer):

Als allgemeine Regel weniger Dimensionen ermöglichen breitere Vergleiche der Konzepte in einer Sammlung von Text enthalten ist, während eine höhere Anzahl von Dimensionen präziser ermöglichen (oder mehr relevante) Vergleiche von Konzepten. Die tatsächliche Anzahl der verwendbaren Dimensionen ist durch die Anzahl der Dokumente in der Sammlung begrenzt. Die Forschung hat gezeigt, dass etwa 300 Dimensionen bei mittelgroßen Dokumentensammlungen (Hunderttausende von Dokumenten) und vielleicht 400 Dimensionen bei größeren Dokumentensammlungen (Millionen von Dokumenten) die besten Ergebnisse liefern. Neuere Studien zeigen jedoch, dass 50-1000 Dimensionen je nach Größe und Art der Dokumentensammlung geeignet sind.