This könnte ein guter Anfang sein. Es ist der vollständige Quellcode (der Textparser, der Datenspeicher und der Klassifikator) für eine Python-Implementierung eines naiven Bayesschen Klassifikators. Obwohl es vollständig ist, ist es immer noch klein genug, um in einer Sitzung zu verdauen. Ich denke, der Code ist einigermaßen gut geschrieben und gut kommentiert. Dies ist Teil der Quellcodedateien für das Buch Programmierung Collective Intelligence.
Um die Quelle zu erhalten, klicken Sie auf den Link, dl und entpacken Sie die Zip, aus dem Hauptordner 'PCI_Code', gehen Sie zum Ordner 'Kapitel 6', die eine Python-Quelldatei 'docclass.py hat. Das ist der vollständige Quellcode für einen Bayes-Spam-Filter. Die Trainingsdaten (E-Mails) werden in einer sqlite-Datenbank gespeichert, die ebenfalls im selben Ordner enthalten ist ('test.db'). Die einzige externe Bibliothek, die Sie benötigen, sind die Python-Bindungen zu sqlite (pysqlite); Sie brauchen auch sqlite selbst, wenn Sie es nicht bereits installiert haben).
Gibt es etwas, von dem Sie wissen, dass kontinuierliche Variablen erlaubt? – disappearedng
Das [pebl tutorial] (http://ano.malo.us/pebl/docs/tutorial.html) behandelt die Diskretisierung, also nehme ich an, dass es über diese Methode zumindest kontinuierliche Variablen verarbeiten kann. –