Ich war Auschecken Simhash-Modul (https://github.com/leonsim/simhash).Hamming Entfernung (Simhash Python) geben unerwarteten Wert
Ich nehme an, dass die Simhash ("String") Entfernung (Simhash ("Another string")) die Hamming-Distanz zwischen den beiden Saiten ist. Nun, ich bin nicht sicher, ob ich verstehe dieses „get_features (string) Methode vollständig, wie in (https://leons.im/posts/a-python-implementation-of-simhash-algorithm/) gezeigt.
def get_features(s):
width = 2
s = s.lower()
s = re.sub(r'[^\w]+', '', s)
return [s[i:i + width] for i in range(max(len(s) - width + 1, 1))]
jetzt, wenn ich versuche, zwischen zu berechnen Abstand‚AAAA‘und‚AAAS‘die Breite mit 2, gibt es den Abstand als 0.
from simhash import Simhash
Simhash(get_features("aaas")).distance(Simhash(get_features("aaaa")))
out ich bin nicht sicher, was ich hier raus bin fehlt.