Um RT eines bestimmten Tweets erkennen zu können, beabsichtige ich, Hashes für jeden formatierten Tweet in der Datenbank zu speichern.Erkennung von Retweets mit Hilfe von billigen Python-Hash-Algorithmen
Was Hash-Algorithmus sollte ich verwenden. Kryptisch ist natürlich nicht essentiell. Nur eine minimale Art, Daten als etwas zu speichern, das dann verglichen werden kann, wenn es auf effiziente Weise gleich ist.
Mein erster Versuch war mit MD5-Hashes. Aber ich dachte, dass es Hash-Algorithmen geben kann, die viel effizienter sind, da Sicherheit nicht erforderlich ist.
Wie wäre es mit dem Speichern und Vergleichen von CRCs? – dirkgently
möchten Sie vielleicht etwas über das Problem nachdenken. Re-Tweeting ist eher ein Pattern-Matching-Problem, da es für den Re-Tweet keine festen Regeln gibt. daher wahrscheinlich nur ein Teil des ursprünglichen Tweet verfügbar sein, so Hashing wird nicht funktionieren ... Siehe Antwort unten, um Text Indexer – jottos
@jottos Zu diesem Zweck würde ich davon ausgehen, alle Wörter beginnend mit RT sind Retweets und das deckt 90 % der richtigen. Praktisch ausreichend. Ich werde den Tweet aller @words RTs usw. "säubern" müssen, so könnte Hashing möglich sein. –