Antwort

0

Dies ist eine sehr wichtige Frage. In der NN-Gemeinschaft verwenden die Leute normalerweise einen Schwellenwert (d. H. Frequenz < = 2) im Trainingssatz und ersetzen alle Wörter, die unter diesem Schwellenwert liegen, durch das UNK-Token. Wenn dann in der Testzeit ein Wort vorhanden ist, das nicht mit einem tatsächlichen Trainingssatzwort übereinstimmt, wird es durch die UNK-Darstellung ersetzt.