Ich habe einen Spam-Klassifikator mit Pandas und Scikit entwickelt, um es in unser hadoop-basiertes System integrieren zu können. Zu diesem Zweck muss ich meinen Klassifikator in ein gebräuchlicheres Format als das Beizen exportieren.Exportieren eines Scikit Learn Random Forest für die Verwendung auf Hadoop Platform
Die Predictive Model Markup Language (PMML) ist mein bevorzugtes Exportformat. Es spielt hervorragend mit Cascading, das wir bereits verwenden. Ich finde jedoch überraschenderweise keine Python-Bibliotheken, die Scikit-Lern-Modelle in PMML exportieren.
Hat jemand Erfahrung mit diesem Anwendungsfall? Gibt es eine Alternative zu PMML, die Interoperabilität zwischen scikit-learn und hadoop ermöglichen würde? Was ist mit einer soliden PMML-Exportbibliothek?
gibt es eine ähnliche Frage bei Quora http://www.quora.com/How-do-I-use-scikit-learn-with-Hadoop-and-Mapreduce – miraculixx
Danke für die Eingabe. Die Verwendung der Streaming-API ist nicht ideal, aber ich muss möglicherweise darauf zurückgreifen, wenn alles andere fehlschlägt. –
Spam-Klassifizierung wie in E-Mail-Spam? Wie bist du dazu gekommen, einen Random Forest zu benutzen? –