0

Ich benutze Scikit lernen für die Klassifizierung. Und hauptsächlich arbeiten mit NAive Bayes, SVM, Neuronales Netzwerk. Es gibt Varianten in jedem von ihnen.Verwenden Sie alle maschinellen Lernalgorithmen Wortfrequenz als Feature?

Ich sehe für das Training Algo Vektoren erstellen. Was enthält dieser Vektor?

Für alle Algorithmus berücksichtigt es Worthäufigkeit als ein Merkmal? Wenn ja, wie unterscheiden sie sich?

Antwort

1

Für die Textklassifizierung erstellen Sie normalerweise einen Vektor words frequency, or tf-idf, um Entfernungen zwischen zwei Dokumenten berechnen zu können. Sie können alle Arten von Methoden verwenden, um diese Wortgewichte zu erstellen.

Die Wörter (Features) können nur durch ein Teilen der Dokumente auf Trennzeichen extrahiert werden, aber Sie können komplexere Methoden wie stemming verwenden (behalten Sie nur die Wurzel der Wörter).

Sie finden viele Beispiele in der sklearn Dokumentation. Zum Beispiel:

http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html

Diese iPython Notebook konnte einen guten Start sein.

+0

Danke für Ihre Antwort. Aber meine Frage war anders. Bezieht sich alles maschinelle Lernen algo auf tf-idf für die Merkmalauswahl? – user3449212

+0

Sie entscheiden, welche Art von Funktion Sie verwenden möchten. Im Sklearn-Link sehen Sie, dass alle Arten von Klassifikatoren mit den gleichen Funktionen verwendet werden. Sie können aber auch andere Funktionen verwenden: Länge des Dokuments, Anzahl der Vokale. Sie können auch alle Arten von Vektorisierer verwenden (CountVectorizer, TfIdf, Hashing ...). – Till