Ich bin neu bei scikit-learn und brauchte etwas Hilfe bei etwas, an dem ich gearbeitet habe.Zusammenfassen von CountVectorizer in Scikit-Lernen Merkmalsextraktion
Ich versuche, zwei Arten von Dokumenten (sagen wir, Typ A und Typ B) mit Multinomial Naive Bayes Klassifizierung zu klassifizieren. Um die Anzahl der Ausdrücke für diese Dokumente zu erhalten, verwende ich die Klasse CountVectorizer in sklearn.feature_extraction.text.
Das Problem besteht darin, dass die beiden Dokumenttypen unterschiedliche reguläre Ausdrücke zum Extrahieren von Tokens benötigen (token_pattern-Parameter für CountVectorization). Ich kann nicht scheinen, einen Weg zu finden, um zuerst die Schulungsunterlagen vom Typ A geladen wird und dann vom Typ B. Ist es möglich, wie etwas zu tun:
vecA = CountVectorizer(token_pattern="[a-zA-Z]+", ...)
vecA.fit(list_of_type_A_document_content)
...
vecB = CountVectorizer(token_pattern="[a-zA-Z0-9]+", ...)
vecB.fit(list_of_type_B_document_content)
...
# Somehow merge the two vectorizers results and get the final sparse matrix