Ich setze diesen Code dort hin, wo ich logistische Regression und PCA + logistische Regression getan habe. Mit Logistik habe ich 95% Genauigkeit, während mit PCA + Logistik ich seltsame Ergebnisse bekomme. Ich führte eine logistische Regression bei einem binären Klassifikationsproblem mit Daten von 50000 x 370 Dimensionen durch. Ich habe eine Genauigkeit von etwa 90%. Aber als ich PCA + Logistics auf Daten setzte, reduzierte sich meine Genauigkeit auf 5%. Ich war sehr schockiert, dieses Ergebnis zu sehen. Kann mir jemand erklären, was schief gehen könnte? Kann jemand sehen, was Fehler ist oder ich PCA falsch anwende? Ich bin wirklich verwirrt, bitte schlage etwas vor, um es richtig zu machen.PCA reduziert die Leistung der logistischen Regression?
X_train1, X_test1, y_train1, y_test1 = train_test_split(X_test,y_test, test_size=0.50)
pca=PCA(n_components=0.98).fit(X_train1)
X_train1pca=pca.transform(X_train1)
X_test1pca=pca.transform(X_test1)
lr=LogisticRegression()
y_pred1=lr.fit(X_train1,y_train1).predict(X_test1)
y_pred2=lr.fit(X_train1pca,y_train1).predict(X_test1pca)
acc_pca=(y_pred2==y_test1).sum()/len(y_test1)
acc=(y_pred1==y_test1).sum()/len(y_test1)
print(acc_pca,acc)
print(acc_pca+acc)
Ergebnisse Ich habe wie erwähnt:
0.954836446549 0.959221257564
1.91405770411
>>>
========= RESTART: C:\Users\prashant\Desktop\santandar\santander.py =========
0.0430588441638 0.962992195036
1.0060510392
>>>
========= RESTART: C:\Users\prashant\Desktop\santandar\santander.py =========
0.0463913005349 0.960098219767
1.0064895203
Bitte veröffentlichen Sie nicht mehrere Versionen derselben Frage. Wenn Sie mit Ihrer aktuellen Frage nicht auffallen, bearbeiten Sie sie entweder, um Klarheit zu gewinnen, oder seien Sie einfach nur geduldig. http://StackOverflow.com/Questions/36668768/Why-Did-Pca-reduced-the-Performance-of-Logistic-Regression – rayryeng
Ich bin der gleiche Kerl, der das gepostet hat, aber die Leute dort schlug mir vor, Frage mit Code zu stellen. Also habe ich es getrennt gesagt. Ist es falsch ? –
Wie @arcticless angegeben hat, ist es sehr wahrscheinlich, dass die Ergebnisbezeichnungen invertiert sind. –