In NLP ist es immer so, dass die Dimension der Features sehr groß ist. Zum Beispiel ist für ein vorliegendes Projekt die Dimension der Merkmale fast 20 Tausend (p = 20.000), und jedes Merkmal ist eine
Ich benutze this Antwort, um die Korrelationskoeffizienten größer als ein gegebenes Limit, f, in einer Matrix (ndarray) zu finden, die von Form ist (29421, 11001) [dh 29.421 Zeilen und 11.001 Spalten]
I orthogonal Matching-Pursuit-Algorithmus in Python ausführen und nutzen Sie die folgende Warnung: RuntimeWarning: Orthogonal Matching Pursuit vorzeitig im Wörterbuch aufgrund linearer Abhängigkeit be
Ich verwendete mit truncatedSVD mit 30000 von 40000 Größe der Term-Dokument-Matrix zur Reduzierung der Dimension auf 3000 Dimension, bei Verwendung 'randomisiert', Varianz-Verhältnis ist etwa 0,5 (n_i