Was ist der beste Fuzzy-Matching-Algorithmus (Fuzzy-Logik, N-Gram, Levenstein, Soundex ....), um mehr als 100000 Datensätze in kürzerer Zeit zu verarbeiten?Best Fuzzy Matching-Algorithmus?
26
A
Antwort
21
Ich schlage vor, Sie lesen die Artikel von Navarro in der References Abschnitt der Wikipedia-Artikel mit dem Titel Approximate string matching erwähnt. Ihre Entscheidung auf der Grundlage der tatsächlichen Forschung ist immer besser als auf Anregungen von zufälligen Fremde .. Besonders wenn Leistung auf einer bekannten Reihe von Datensätzen für Sie wichtig ist.
3
Es hängt massiv von Ihren Daten ab. Bestimmte Datensätze können besser als andere verglichen werden. Zum Beispiel ist Postleitzahl ein definiertes Format und kann daher anders als normale Strings verglichen werden. Menschen können auf Initialen und DOB, oder andere Kombinationen etc. abgestimmt werden.
Ich stelle mir vor, was @Mitch Wheat * bedeutete * zu sagen war, dass es sehr schwer sein wird, eine definitive Antwort auf diese Frage zu geben, da die beste Lösung wird stark von den Eigenschaften Ihrer Eingabe- und Systemarchitektur abhängig sein. Wie Tim in seiner Antwort erwähnte, sollten Sie die Stärken und Schwächen dieser Algorithmen nachlesen und dann diejenigen testen, die für Sie geeignet erscheinen. – DougW