Ich habe einen riesigen Datensatz (32000 * 2500), den ich für das Training brauche. Dies scheint zu viel für meinen Klassifikator zu sein, also beschloss ich, etwas über die Reduktion der Dimensionalität und speziell über PCA zu lesen.Auswahl der Komponenten mit den meisten Abweichungen in PCA
Aus meiner Sicht wählt PCA die aktuellen Daten aus und plottet sie auf einer anderen (x, y) Domäne/Skala. Diese neuen Koordinaten bedeuten nichts anderes, als dass die Daten neu angeordnet werden, um einer Achse maximale Variation zu geben. Nach diesen neuen Koeffizienten kann ich die cooeff
mit minimaler Variation fallen lassen.
Jetzt versuche ich dies in MatLab zu implementieren und habe Probleme mit der bereitgestellten Ausgabe. MatLab betrachtet Zeilen immer als Beobachtungen und Spalten als Variablen. Also meine Inout an die pca
Funktion wäre meine Matrix der Größe (32000*2500)
. Dies würde die PCA-Koeffizienten in einer Ausgabematrix der Größe 2500*2500
zurückgeben.
Die Hilfe für PKA Zustände:
Jede Spalte von COEFF enthält Koeffizienten für eine Hauptkomponente und die Spalten sind, um die Komponente Varianz in absteigender Reihenfolge.
In dieser Ausgabe, welche Dimension sind die Beobachtungen meiner Daten? Ich meine, wenn ich dies dem Klassifikator geben muss, werden die Zeilen von coeff
meine Daten Beobachtungen darstellen oder sind es jetzt die Spalten von coeff
?
Und wie entferne ich die Koeffizienten mit der geringsten Variation?
Das ist richtig. Gute Arbeit, Ami. +1. – rayryeng
@rayryeng :-) Danke! –