Die Themenmodellierung identifiziert die Verteilung von Themen in einer Dokumentensammlung, wodurch die Cluster in der Sammlung effektiv identifiziert werden. Ist es richtig zu sagen, dass die Themenmodellierung eine Technik ist, um Dokumentenclustering durchzuführen?Welche Beziehung besteht zwischen der Themenmodellierung und dem Dokumentclustering?
Antwort
Ein Thema unterscheidet sich ziemlich von einem Cluster von Dokumenten, schließlich besteht ein Thema nicht aus Dokumenten.
Allerdings sind diese beiden Techniken tatsächlich verwandt. Ich glaube, dass Topic Modeling ein praktikabler Weg ist, um zu entscheiden, wie ähnliche Dokumente sind, daher ein praktikabler Weg für Dokumenten-Clustering.
Bei der Darstellung jedes Dokuments als Themenverteilung (tatsächlich ein Vektor) reduzieren Themenmodellierungstechniken die Merkmaldimensionalität von der Anzahl der verschiedenen Wörter (in einem Korpus) zur Anzahl der Themen. Ähnlichkeiten zwischen den Topic-Verteilungen von Docs können mithilfe von Cosine-Metriken und vielen anderen Metriken berechnet werden, die die Ähnlichkeit der Dokumente selbst in Bezug auf die behandelten Themen widerspiegeln. Basierend auf diesem quantifizierten Ähnlichkeitsmaß können viele Clustering-Algorithmen angewendet werden, um die Dokumente zu gruppieren.
Und in diesem Sinne, ich denke, es ist richtig zu sagen, dass Thema Modellierung ist eine Technik, um Dokument-Clustering zu tun.
Die Beziehung zwischen Clustering und Klassifizierung ist der Beziehung zwischen Topic-Modeling und Multi-Label-Klassifikation sehr ähnlich.
Bei der Ein-Label-Mehrklassenklassifizierung weisen wir jedem Dokument nur ein Label zu. Und beim Clustering legen wir jedes Dokument in eine Gruppe. Tatsache ist, dass wir die Cluster nicht im Voraus definieren können, wenn wir Labels definieren. Wenn wir diese Tatsache ignorieren, sind Gruppierung und Etikettierung im Wesentlichen dasselbe.
Allerdings ist in der realen Welt Probleme flache Klassifizierung nicht ausreichend. Oft beziehen sich Dokumente auf mehrere Kategorien/Klassen. Daher nutzen wir die Multi-Label-Klassifizierung. Jetzt können wir das Thema Modellierung als unüberwachte Version der Multi-Label-Klassifikation sehen, da wir jedes Dokument unter mehrere Gruppen/Themen stellen können. Auch hier ignoriere ich die Tatsache, dass wir nicht im Voraus entscheiden können, welche Themen als Labels verwendet werden sollen.