In Bag-of-Word-Modell, ich weiß, sollten wir Stoppwörter und Interpunktion vor dem Training zu entfernen. Aber sollte ich im RNN-Modell auch Stoppwörter entfernen, wenn ich eine Textklassifizierung durchführen möchte?Sollte ich Stoppwörter entfernen, wenn Satz zu RNN
0
A
Antwort
2
Dies hängt davon ab, was Ihr Modell klassifiziert. Wenn Sie etwas tun, bei dem die Klassifizierung durch Stoppwörter unterstützt wird - ein gewisses Maß an Syntaxverständnis - dann müssen Sie entweder die Stoppwörter beibehalten oder Ihre Stoppliste ändern, damit Sie nicht verlieren diese Information. Zum Beispiel kann das Ausschneiden aller Verben des Seins (ist, sind, sollte sein, ...) ein NN durcheinander bringen, das etwas von der Satzstruktur abhängt.
Wenn Ihre Klassifizierung jedoch themenbasiert ist (wie von Ihrer Bag-of-Word-Referenz vorgeschlagen), behandeln Sie die Eingabe auf die gleiche Weise: Entfernen Sie diese lästigen Stoppwörter, bevor sie wertvolle Trainingszeit verbrennen.