Ich habe 5000, manchmal mehr, street address strings in einem Array. Ich möchte sie alle mit Levenshtein vergleichen, um ähnliche Übereinstimmungen zu finden. Wie kann ich dies tun, ohne alle 5000 zu durchlaufen und sie direkt mit jedem anderen 4999 zu vergleichen?Vergleichen Sie 5000 Strings mit PHP Levenshtein
Bearbeiten: Ich bin auch an alternativen Methoden interessiert, wenn jemand Vorschläge hat. Das allgemeine Ziel besteht darin, ähnliche Einträge zu finden (und Dubletten zu eliminieren), basierend auf von Benutzern eingegebenen Straßenadressen.
In Bezug auf das Update, könnten Sie eine Eingabe anwenden müssen gereinigt werden Ihnen das Leben leichter zu machen. (Beispiel: Wenn Sie "Ave" in "Avenue", "Rd" in "Road" usw. umwandeln, wäre vor der Speicherung mit soundex eine realistischere Option.) –
Wie definieren Sie ähnliche Adressen? Haben Sie einen maximalen Wert für die Lehvenstein-Distanz, der Grenze für Ähnlichkeit usw.? –
Ähnlich wäre "12 Bird Road, Apt 6" und "12 Bird Rd. # 6" – phirschybar