.arff-Dateien mit scikit-lernen?

Ich würde gerne eine Attribute-Relation File Format mit scikit-lernen, um einige NLP-Aufgabe zu tun, ist das möglich? Wie kann eine .arff Datei mit scikit-learn verwendet werden?.arff-Dateien mit scikit-lernen?

Quelle

2014-12-03 tumbleweed

Ich empfehle wirklich liac-arff. Es lädt nicht direkt an numpy, aber die Umsetzung ist einfach:

import arff, numpy as np 
dataset = arff.load(open('mydataset.arff', 'rb')) 
data = np.array(dataset['data'])

Quelle

2014-12-04 12:12:20 renatopp

Danke für die Rückmeldung. Irgendeine Idee von, wie ich dieses Gespräch verwenden kann, um zu klassifizieren ?. – tumbleweed

ich alle bereit wissen, dass zum Beispiel mit SVM die Grundidee für die Klassifizierung ist: 'von sklearn Import svm s = svm.SVC() lables = [label1, label2] s.fit (training_data, Etiketten)' Wie könnte ich präsentiere eine 'arff' Datei zu einem Klassifikationsalgorithmus? – tumbleweed

Können Sie TF-IDF-Ergebnisse aus der .arff-Datei analysieren und in sklearn verwenden? –

Ich fand, dass scipy has a loader for arff files, um sie als numpy Record-Arrays zu laden. Ich bin nicht 100% sicher, dass diese Arrays für den direkten Konsum von scikit-learn geeignet sind, aber das sollte beginnen.

Quelle

2014-12-03 07:44:31 ogrisel

Denkst du, dass ich diese numpigen Arrays parsen muss? ... Welche Art von Vorprozess müsste ich machen, um einen Klassifizierungsalgorithmus in scikit-learn zu füttern? – tumbleweed

Follow renatopp Antwort: übernehmen Ihre Daten der Iris-Datensatz ist, sollte es 5 dimensional mit letzte ist die Klasse Label Spalte.

s = svm.SVC() 
data_input = data[:,0:4] 
labels = data[:,4] # this is the class column 
s.fit(data_input, labels)

Ich denke, das ist etwas, was Sie wollen.

Quelle

2017-02-15 10:48:15

Antwort

Verwandte Themen