Also versuche ich (nur zum Spaß) Filme basierend auf ihrer Beschreibung zu klassifizieren, die Idee ist es, Filme "zu markieren", so ein gegebener Film könnte "Aktion sein "und" Humor "zur gleichen Zeit zum Beispiel.Machine Learning Text Klassifizierung, wo ein Text gehört zu 1 bis N Klassen
Wenn Sie einen Textklassifizierer verwenden, erhalten Sie normalerweise die Klasse to, zu der ein bestimmter Text gehört, aber in meinem Fall möchte ich einen Text den 1 bis N Tags zuweisen.
Derzeit ist mein Trainingssatz wie diese
+--------------------------+---------+
| TEXT | TAG |
+--------------------------+---------+
| Some text from a movie | action |
+--------------------------+---------+
| Some text from a movie | humor |
+--------------------------+---------+
| Another text here | romance |
+--------------------------+---------+
| Another text here | cartoons|
+--------------------------+---------+
| And some text more | humor |
+--------------------------+---------+
aussehen würde Was ich als nächstes tue, ist Klassifizierer zu trainieren, mir zu sagen, ob jeder Tag zu einem einzigen Text gehört, so zum Beispiel, wenn ich will Figur heraus, ob ein Text als „Humor“ eingestuft ich mit folgenden Ausbildung
+--------------------------+---------+
| TEXT | TAG |
+--------------------------+---------+
| Some text from a movie | humor |
+--------------------------+---------+
| Another text here |not humor|
+--------------------------+---------+
| And some text more | humor |
+--------------------------+---------+
Dann trainiere ich einen Klassifikator gesetzt
enden würde, dass ein Text ist Humor oder nicht (der gleiche Ansatz auch nicht lernen würde, ist mit den restlichen Tags gemacht). Danach habe ich mit insgesamt 4 Klassifizierer beenden, die- Aktion/keine Aktion
- Humor/nein Humor
- Romantik/keine Romantik
- Cartoons/keine Cartoons
Schließlich sind Wenn ich einen neuen Text bekomme, wende ich ihn an jeden der 4 Klassifikatoren an, für jeden Klassifizierer, der mir eine positive Klassifizierung gibt (das heißt, gibt mir X anstelle von Nein-X), wenn diese Klassifizierung über einem bestimmten Schwellenwert liegt (sagen wir 0.9), dann nehme ich das an der neue Text gehört zu Tag X, und dann wiederhole ich das gleiche mit jedem der Klassifikatoren.
Insbesondere verwende ich Naive Bayes als Algorithmus, aber das gleiche könnte mit jedem Algorithmus angewendet werden, der eine Wahrscheinlichkeit ausgibt.
Jetzt ist die Frage, ist dieser Ansatz richtig? Mache ich hier etwas schrecklich falsch? Aus den Ergebnissen ergibt sich, dass Dinge sinnvoll erscheinen, aber ich hätte gerne eine zweite Meinung.
Warum hat das negative Kommentare? Ich finde es sehr nützlich ... adding upvote! –
@Juan, ich war auch überrascht, einen Downvote hier zu sehen, aber da es keinen Kommentar gibt, der erklärt, was ein Wähler im Sinn hatte - würde ich annehmen, dass es nicht sehr "faktische" Abstimmung war. – lejlot