Ich habe eine hochdimensionale Wort-Bi-Gramm-Frequenzmatrix (1100 x 100658, dtype = int). Als Spaltennamen setze ich die Wort-Bi-Gramme (wie 'der-', 'und-der', ...) mit myPandaDataFrame.columns = Wort-Bi-Gramme als Zeilenindex ich für verwenden Beispiel die Fähigkeit (hoch, mittel, niedrig) myPandaDataFrame.columns.set_index ([ 'pROFICIENCY'], Inplace = True, Tropfen = True)Sklearn und PCA. Warum ist max n_row == max n_components?
dann mache ich
from sklearn.decomposition import PCA
x = 500
pcax = PCA(n_components=x)
pcax.fit(myPandaDataFrame)
PCA(copy=True, n_components=x, whiten=False)
existing_2dx = pcax.transform(myPandaDataFrame)
existing_df_2dx = pandas.DataFrame(existing_2dx)
existing_df_2dx.index = myPandaDataFrame.index
existing_df_2dx.columns = ['PC{0}'.format(i) for i in range(x)]
Mein erstes Problem , wo ich denke, dass es falsch ist, ist, dass ich nur eine maximale Anzahl von 1100 Komponenten einstellen kann. Das ist die Anzahl der vorhandenen Zeilen. Ich bin sehr neu in PCA und habe einige Beispiele ausprobiert, aber es scheint, als könnte ich es nicht richtig für meine Matrix bekommen. Seht jemand, wo ich einen Fehler mache oder kann jemand auf ein Tutorial/Beispiel verweisen, das meinem Problem ähnlich ist. Ich wäre sehr glücklich :)
Mit freundlichen Grüßen
Sie können vielleicht mehr Hilfe in http://datascience.stackexchange.com/ – Thanos
bekommen Danke, ich werde das versuchen. – user6131832
hat eine der Antworten geholfen? – Stefan