2010-07-22 4 views
5

Ich bin immer von der hohen Qualität des Gmail-Spam-Filters überrascht. Für das letzte Jahr hat es 99,95% des Spams gefiltert und versehentlich nur eine Mail blockiert. Im Vergleich dazu macht jeder andere Mail-Dienst, den ich verwendet habe, mindestens einen Fehler für alle 50 Mails.Wie funktioniert der Gmail-Spamfilter?

Wie erreicht Gmail intern dieses Qualitätsniveau? Basiert es auf Kunden-Feedback (dh wenn Kunden ihre E-Mails als Spam blockieren, werden sie als Spam für jeden anderen Kunden sortiert)? N Oder gibt es einen Trick? Vielleicht filtert ein grundlegender Filteralgorithmus den offensichtlichsten Spam, und einige schwierige Fälle werden von echten Menschen analysiert?

+4

Hahaha. Das ist lustig. Fragen Sie uns, wie Googles proprietärer, geheimer Handelsalgorithmus funktioniert. Warum fragst du sie nicht? –

Antwort

8

Kurz gesagt basiert dies auf der Community Feedback. Hier ein Zitat aus der offiziellen Erklärung:

Google Mail-Nutzer spielen eine wichtige Rolle dabei, Spam-Nachrichten aus Millionen von Posteingängen fernzuhalten. Wenn die Google Mail-Community mit ihren Klicks eine bestimmte E-Mail als Spam meldet, lernt unser System schnell, ähnliche Nachrichten zu blockieren. Je mehr Spam die Community markiert, desto intelligenter wird unser System.

Sie können ein bisschen mehr darüber auf ihrer Spam Explained Seite lesen.

7

Dies ist die Millionen-Dollar-Frage, und wenn es auf stackOverflow beantwortet werden könnte, dann wäre jeder Spam-Filter so effektiv.

+0

Es ist nicht so offensichtlich. Wie ich schon sagte, vielleicht mieten Google Menschen, um schwierige Fälle zu filtern, oder der Filter basiert auf Benutzer-Feedback. In diesem Fall, ja, jeder, der Leute anheuert, um diese Sachen zu machen oder sich auf eine so große Gemeinschaft zu verlassen, wäre in der Lage, einen effektiven Spam-Filter zu erstellen. –

+0

Nein, das liegt nicht an der hohen Qualität des Spam-Filters, da die Datenmenge sehr hoch ist. Siehe Peter Norvigs Vortrag "Die unzumutbare Effektivität von Daten" – Wes

2

Ich weiß nicht genau, wie genau SPAM filtert (aber ich denke, es ist ein Geschäftsgeheimnis). Wenn Sie daran interessiert sind, wie SPAM-Filterung funktioniert, würde ich empfehlen, die Bayessche SPAM-Filterung zu betrachten (http://en.wikipedia.org/wiki/Bayesian_spam_filtering). Es ist eine ziemlich einfach zu verstehende Methode.

-1

Google verwendet höchstwahrscheinlich ein Klassifizierungssystem wie Logistische Regression oder Neuronale Netze. Modernste Spam-Erkennung verwendet häufig Machine-Learning-Algorithmen wie diese.

Die Ausgabeklassifizierung lautet "Spam" oder "Kein Spam", und die Eingaben sind bei Google zwar streng geheim, aber ich bin mir sicher, bestimmte E-Mail-Textphrasen wie "Jetzt kaufen", "Ein Verkauf, Viagra oder Male Enhancement sind alles Faktoren in ihrem Modell.