Angenommen, ich habe einige Textsätze, die ich mit Kmeans gruppieren möchte.Wie konvertiere ich neue Daten in die PCA-Komponenten meiner Trainingsdaten?
sentences = [
"fix grammatical or spelling errors",
"clarify meaning without changing it",
"correct minor mistakes",
"add related resources or links",
"always respect the original author"
]
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans
vectorizer = CountVectorizer(min_df=1)
X = vectorizer.fit_transform(sentences)
num_clusters = 2
km = KMeans(n_clusters=num_clusters, init='random', n_init=1,verbose=1)
km.fit(X)
Jetzt konnte ich vorhersagen, welche der Klassen einen neuen Text fallen würde,
new_text = "hello world"
vec = vectorizer.transform([new_text])
print km.predict(vec)[0]
jedoch sagen, dass ich PCA gelten 10.000 Funktionen 50.
from sklearn.decomposition import RandomizedPCA
pca = RandomizedPCA(n_components=50,whiten=True)
X2 = pca.fit_transform(X)
km.fit(X2)
I zu reduzieren kann das gleiche nicht mehr tun, um den Cluster für einen neuen Text vorherzusagen, da die Ergebnisse vom Vektorisierer nicht mehr relevant sind
new_text = "hello world"
vec = vectorizer.transform([new_text]) ##
print km.predict(vec)[0]
ValueError: Incorrect number of features. Got 10000 features, expected 50
Also, wie verwandle ich meinen neuen Text in den niederdimensionalen Merkmalsraum?