Ich bin eine neue Leute in NLP und ich versuche, den Text Klassifizierung Job. Bevor ich den Job erledige, weiß ich, dass wir Worteinbettung machen sollten. Meine Frage ist, sollte ich Word Embedding Job nur auf Trainingsdaten tun (so dass Testdaten erhalten Vektor nur aus vortrainierten VEC-Modell der Trainingsdaten) oder beide auf Trainingsdaten & Testdaten?Sollte ich Word2Vec verwenden, um Worteinbettung einschließlich Testdaten zu tun?
0
A
Antwort
0
Dies ist eine sehr wichtige Frage. In der NN-Gemeinschaft verwenden die Leute normalerweise einen Schwellenwert (d. H. Frequenz < = 2) im Trainingssatz und ersetzen alle Wörter, die unter diesem Schwellenwert liegen, durch das UNK-Token. Wenn dann in der Testzeit ein Wort vorhanden ist, das nicht mit einem tatsächlichen Trainingssatzwort übereinstimmt, wird es durch die UNK-Darstellung ersetzt.