Ich würde gerne eine Attribute-Relation File Format mit scikit-lernen, um einige NLP-Aufgabe zu tun, ist das möglich? Wie kann eine .arff
Datei mit scikit-learn
verwendet werden?.arff-Dateien mit scikit-lernen?
Antwort
Ich empfehle wirklich liac-arff. Es lädt nicht direkt an numpy, aber die Umsetzung ist einfach:
import arff, numpy as np
dataset = arff.load(open('mydataset.arff', 'rb'))
data = np.array(dataset['data'])
Ich fand, dass scipy has a loader for arff files, um sie als numpy Record-Arrays zu laden. Ich bin nicht 100% sicher, dass diese Arrays für den direkten Konsum von scikit-learn geeignet sind, aber das sollte beginnen.
Denkst du, dass ich diese numpigen Arrays parsen muss? ... Welche Art von Vorprozess müsste ich machen, um einen Klassifizierungsalgorithmus in scikit-learn zu füttern? – tumbleweed
Follow renatopp Antwort: übernehmen Ihre Daten der Iris-Datensatz ist, sollte es 5 dimensional mit letzte ist die Klasse Label Spalte.
s = svm.SVC()
data_input = data[:,0:4]
labels = data[:,4] # this is the class column
s.fit(data_input, labels)
Ich denke, das ist etwas, was Sie wollen.
Danke für die Rückmeldung. Irgendeine Idee von, wie ich dieses Gespräch verwenden kann, um zu klassifizieren ?. – tumbleweed
ich alle bereit wissen, dass zum Beispiel mit SVM die Grundidee für die Klassifizierung ist: 'von sklearn Import svm s = svm.SVC() lables = [label1, label2] s.fit (training_data, Etiketten)' Wie könnte ich präsentiere eine 'arff' Datei zu einem Klassifikationsalgorithmus? – tumbleweed
Können Sie TF-IDF-Ergebnisse aus der .arff-Datei analysieren und in sklearn verwenden? –