2016-07-27 10 views
0

Ich möchte den Bewertungstext des Gastes und den Kommentartext des Hosts in Airbnb analysieren.Wie kann man den Ähnlichkeitsgrad der beiden Sätze herausfinden?

Ich habe ein paar Textdaten (von Gästen und Hosts).

ex)

guest1 review with host1 comment 
    guest2 review with host1 comment 
    guest3 review with host2 comment 
    guest2 review with host2 comment 
    guest4 review with host3 comment 

Und dann will ich die Ähnlichkeit oder Übereinstimmung jedes Paar von Absatz sehen.

Muss ich das Hauptthemenwort in jedem Satz extrahieren?

Welcher Text Mining Algorithmus kann mir helfen?

Kann LDA Themen für jeden Absatz anzeigen? (nicht für ganze Textdaten)

+0

Willkommen zu Stack Overflow! Willkommen bei Stack Overflow! Ich habe deine Frage soweit bearbeitet, wie ich dein Problem erraten konnte. Fügen Sie jedoch alles hinzu, was Sie ausprobiert haben, indem Sie in Google oder anderen Websites suchen, damit mehr Personen mit Wissen über das Thema sie sehen können. Wenn Sie irgendwo stecken geblieben sind, dann bearbeiten Sie bitte in der spezifischen Fehlermeldung, die Sie finden, falls es notwendig ist, das spezifische Problem zu identifizieren. Viel Glück! – manetsus

Antwort

0

Es gibt viele Möglichkeiten. Versuchen Sie Schindeln Sätze K-Schindel: http://nlp.stanford.edu/IR-book/html/htmledition/near-duplicates-and-shingling-1.html oder schauen Sie es in wikipedia: https://en.wikipedia.org/wiki/W-shingling , können Sie die Jaccard Ähnlichkeit zwischen Schindeln von zwei Sätzen


Werfen Sie auch einen Blick auf Bag Of Words Modell finden, dass jede Karte Satz zu einem Vektor und Sie können die Ähnlichkeiten zwischen zwei Vektor (zwei Sätze) leicht durch Skalarprodukt jedes übereinstimmenden Wortes: https://en.wikipedia.org/wiki/Bag-of-words_model