Wie kann man den Ähnlichkeitsgrad der beiden Sätze herausfinden?

Ich möchte den Bewertungstext des Gastes und den Kommentartext des Hosts in Airbnb analysieren.Wie kann man den Ähnlichkeitsgrad der beiden Sätze herausfinden?

Ich habe ein paar Textdaten (von Gästen und Hosts).

ex)

guest1 review with host1 comment 
    guest2 review with host1 comment 
    guest3 review with host2 comment 
    guest2 review with host2 comment 
    guest4 review with host3 comment

Und dann will ich die Ähnlichkeit oder Übereinstimmung jedes Paar von Absatz sehen.

Muss ich das Hauptthemenwort in jedem Satz extrahieren?

Welcher Text Mining Algorithmus kann mir helfen?

Kann LDA Themen für jeden Absatz anzeigen? (nicht für ganze Textdaten)

Quelle

2016-07-27 Il Han Ryoo

Willkommen zu Stack Overflow! Willkommen bei Stack Overflow! Ich habe deine Frage soweit bearbeitet, wie ich dein Problem erraten konnte. Fügen Sie jedoch alles hinzu, was Sie ausprobiert haben, indem Sie in Google oder anderen Websites suchen, damit mehr Personen mit Wissen über das Thema sie sehen können. Wenn Sie irgendwo stecken geblieben sind, dann bearbeiten Sie bitte in der spezifischen Fehlermeldung, die Sie finden, falls es notwendig ist, das spezifische Problem zu identifizieren. Viel Glück! – manetsus

Es gibt viele Möglichkeiten. Versuchen Sie Schindeln Sätze K-Schindel: http://nlp.stanford.edu/IR-book/html/htmledition/near-duplicates-and-shingling-1.html oder schauen Sie es in wikipedia: https://en.wikipedia.org/wiki/W-shingling , können Sie die Jaccard Ähnlichkeit zwischen Schindeln von zwei Sätzen

Werfen Sie auch einen Blick auf Bag Of Words Modell finden, dass jede Karte Satz zu einem Vektor und Sie können die Ähnlichkeiten zwischen zwei Vektor (zwei Sätze) leicht durch Skalarprodukt jedes übereinstimmenden Wortes: https://en.wikipedia.org/wiki/Bag-of-words_model

Quelle

2016-07-27 20:16:24 Masoud

Wie kann man den Ähnlichkeitsgrad der beiden Sätze herausfinden?

Antwort

Verwandte Themen