Ist es wahr, dass E-Mails dedupliziert werden können, indem nur einige ihrer Header verwendet werden, da ihre Nachrichten-ID laut RFC eindeutig sein sollte?E-Mail-Deduplizierung
Gibt es eine Möglichkeit, die Wahrscheinlichkeit zu berechnen, dass 1 einzelne E-Mail-Adresse in dieser Deduplizierungsmethode verpasst wird (sha512-Hash dieser 3 Header)?
// $email is a parsed array containing 3 keys (mime headers) -> message_id, subject and date. $hashStr = $email['message_id']; $hashStr .= $email['subject']; $hashStr .= $email['date']; $uniqueEmailId = hash('sha512', $hashStr);
Es ist eine Art Mission entscheidend, dass keine einzige E-Mail übersehen wird, sind die Chancen, dass wir mehrere dedupliziert über haben (> 2) Milliarden Mime-Dateien.
Message-ID ist keine GUID in diesem Sinne. Es ist global einzigartig, aber in einer implementierungsspezifischen Weise aufgebaut. Übliche Technik ist es, ein hex timestamp_seq # auf der linken Seite mit dem Hostnamen auf der rechten Seite des @ -Zeichens zu kombinieren. Siehe RFC 2822 pp22-24 –