2016-05-05 8 views
0

Ich habe einige Datensätze von UCI für die Klassifizierung von RVM Task heruntergeladen. Ich bin mir jedoch nicht sicher, wie man es benutzt.Ich denke, dass diese Datensätze normalisiert werden müssen oder eine andere Arbeit vor dem Einsatz für Training und Tests. Zum Beispiel habe ich "Banknote Authentication Data Set" auf UCI heruntergeladen. Und verwenden Sie Svmtrain in Matlab, um ein SVM-Modell zu erhalten (verwenden Sie SVM-Modell zum Testen von Daten und verwenden Sie dann Rvm-Codes, wenn das Ergebnis der SVM-Klassifizierung in Ordnung ist).Wie wird der Datensatz von UCI für die Klassifizierung von RVM verwendet?

>> load banknote 
>> meas = banknote(:,1:4); 
>> species = banknote(:,5); 
>> data = [meas(:,1), meas(:,2), meas(:,3), meas(:,4)]; 
>> groups = ismember(species,1); 
>> [train, test] = crossvalind('holdOut',groups); 
>> cp = classperf(groups); 
>> svmStruct = svmtrain(data(train,:),groups(train),'showplot',true); 

Dies ist, was ich in Matlab zu tun, und die folgende Meldung erhalten:

??? Error using ==> svmtrain at 470 
Unable to solve the optimization problem: 
Maximum number of iterations exceeded; increase options.MaxIter. 
To continue solving the problem with the current solution as the 
starting point, set x0 = x before calling quadprog. 

Und hier sind ein Teil des Datensatzes (Gesamt Linien 1372 und zum Testen einige für die Ausbildung und den Rest verwenden):

3.6216,8.6661,-2.8073,-0.44699,0 
4.5459,8.1674,-2.4586,-1.4621,0 
3.866,-2.6383,1.9242,0.10645,0 
3.4566,9.5228,-4.0112,-3.5944,0 
0.32924,-4.4552,4.5718,-0.9888,0 
4.3684,9.6718,-3.9606,-3.1625,0 
3.5912,3.0129,0.72888,0.56421,0 
2.0922,-6.81,8.4636,-0.60216,0 
3.2032,5.7588,-0.75345,-0.61251,0 
1.5356,9.1772,-2.2718,-0.73535,0 
1.2247,8.7779,-2.2135,-0.80647,0 
3.9899,-2.7066,2.3946,0.86291,0 
1.8993,7.6625,0.15394,-3.1108,0 
-1.5768,10.843,2.5462,-2.9362,0 
3.404,8.7261,-2.9915,-0.57242,0 

Also, irgendeinen guten Rat zu diesem Problem? Danke Ihnen allen für das Helfen.

Antwort

0

Später zu commit.Use Skalafunktion zur Normalisierung der Feature.Und wenn die Datensätze zu viele Funktionen haben, können wir PCA verwenden, um Dimension zu reduzieren.