übereinstimmt Ich versuche, Namen in R ähnlich zu VISHWANATHAN KRISHNA GURUVAYUR
und GURUVAYUR KRISHNA VISHWANATHAN
zu entsprechen. Nach dem Entfernen von Leerzeichen gibt levenshtein
eine 21%
Übereinstimmung. Ich möchte wissen, ob es eine String-Matching-Algorithmus, der diese beiden Namen als ähnlich markieren könnte ...Zeichenkette, die für Namen mit verwirrten Wörtern in R
library(RecordLinkage)
levenshteinSim("GURUVAYURKRISHNAVISHWANATHAN","VISHWANATHANKRISHNAGURUVAYUR")
#[1] 0.2142857
Bestellen Sie die drei Wörter gleich, bevor Sie sie verketten? – cory
Es gibt Millionen von Datensätzen in der Tabelle und die Reihenfolge der Wörter ist nicht definiert. Es könnte stattdessen 'GURUVAYUR VISHWANATHAN KRISHNA' oder' KRISHNA GURUVAYUR VISHWANATHAN' sein. – Oshan
Warum soll die Levenshtein-Distanz zwischen "abcdef" und "efabcd" 1 sein? – cory