2016-08-05 34 views
1

Ich habe mit maschinellem Lernen experimentiert und muss ein Modell entwickeln, das eine Vorhersage basierend auf einer Reihe von Variablen macht. Der einfachste Weg, ich das erklären kann, ist durch das folgende Beispiel „Golf spielen“:Machine Learning Naive Bayes Klassifizierer in Python

train.csv

Outlook,Temperature,Humidity,Windy,Play 
overcast,hot,high,FALSE,yes 
overcast,cool,normal,TRUE,yes 
overcast,mild,high,TRUE,yes 
overcast,hot,normal,FALSE,yes 
rainy,mild,high,FALSE,yes 
rainy,cool,normal,FALSE,yes 
rainy,cool,normal,TRUE,no 
rainy,mild,normal,FALSE,yes 
rainy,mild,high,TRUE,no 
sunny,hot,high,FALSE,no 
sunny,hot,high,TRUE,no 
sunny,mild,high,FALSE,no 
sunny,cool,normal,FALSE,yes 
sunny,mild,normal,TRUE,yes 

Das Programm benötigt die Vorhersage in die makeprediciton.csv Datei

Outlook,Temperature,Humidity,Windy,Play 
rainy,hot,normal,TRUE, 
einfügen

Ich konnte diesen Klassifikator mit Excel anwenden. Ich frage mich, ob es eine einfache Bibliothek in Python gibt, die mir helfen kann, die Häufigkeiten zu gruppieren und die Berechnungen durchzuführen, anstatt Code für alles manuell schreiben zu müssen. http://www.filedropper.com/playgolf

Jede Hilfe wäre sehr geschätzt:

Sie können meinen Ansatz durch excel in dem unten stehenden Link.

+2

Werfen Sie einen Blick verwenden bei ' scikit-learn' und bitte auch keine Fragen zu Bibliotheksempfehlungen zu stackoverflow stellen. Es wird explizit in "howto ask" angegeben, dass solche Fragen nicht für stackoverflow geeignet sind. – cel

Antwort

1

Kommt drauf an. Wenn Sie nicht codieren möchten, versuchen Sie Rapidminier. Es ist sehr einfach zu lernen und zu experimentieren. Es ist documentation ist sehr gut und klar. Sie können This example für Naive Bayesian Classifier sehen und ein Ergebnis erhalten.


Auch wenn Sie einige Codierung und Verwendung Python lang, versuchen Scikit-learn Hexe ist weiter fortgeschritten lib in Python. Es nutzt scipy und numpy und hat eine sehr leistungsfähige Implementierung von Data-Mining-Algorithmen. Für Ihr Beispiel müssen Sie zuerst One-Hot-Encoding verwenden Ihre kategorische Funktion hochdimensionalen spärlichen Vektor zu ändern und dann einen Klassifikator wie Naive Bayesian


auch für das Lesen CSV-Datei verwenden, können Sie Pandas