2014-12-03 18 views

Antwort

16

Ich empfehle wirklich liac-arff. Es lädt nicht direkt an numpy, aber die Umsetzung ist einfach:

import arff, numpy as np 
dataset = arff.load(open('mydataset.arff', 'rb')) 
data = np.array(dataset['data']) 
+0

Danke für die Rückmeldung. Irgendeine Idee von, wie ich dieses Gespräch verwenden kann, um zu klassifizieren ?. – tumbleweed

+0

ich alle bereit wissen, dass zum Beispiel mit SVM die Grundidee für die Klassifizierung ist: 'von sklearn Import svm s = svm.SVC() lables = [label1, label2] s.fit (training_data, Etiketten)' Wie könnte ich präsentiere eine 'arff' Datei zu einem Klassifikationsalgorithmus? – tumbleweed

+0

Können Sie TF-IDF-Ergebnisse aus der .arff-Datei analysieren und in sklearn verwenden? –

6

Ich fand, dass scipy has a loader for arff files, um sie als numpy Record-Arrays zu laden. Ich bin nicht 100% sicher, dass diese Arrays für den direkten Konsum von scikit-learn geeignet sind, aber das sollte beginnen.

+0

Denkst du, dass ich diese numpigen Arrays parsen muss? ... Welche Art von Vorprozess müsste ich machen, um einen Klassifizierungsalgorithmus in scikit-learn zu füttern? – tumbleweed

2

Follow renatopp Antwort: übernehmen Ihre Daten der Iris-Datensatz ist, sollte es 5 dimensional mit letzte ist die Klasse Label Spalte.

s = svm.SVC() 
data_input = data[:,0:4] 
labels = data[:,4] # this is the class column 
s.fit(data_input, labels) 

Ich denke, das ist etwas, was Sie wollen.