Ich fand, dass in populären Datensätzen wie imagenet, cifar-100, die Anzahl der Bilder für jede Kategorie gleich ist. Ich frage mich, ob es irgendwelche negativen Auswirkungen gibt, wenn die Trainingsbilder für die Klassifizierung unausgewogen sind. (z. B. 100 für Leoparden und 5000 für Elefanten)Irgendwelche schlechten Auswirkungen von unausgewogenen Daten im Deep Learning?
-1
A
Antwort
1
Ja, Sie könnten in diesem Fall einige Probleme haben: Die versteckten Schichten werden sich mehr auf die Merkmale von Elefanten auswirken. Wenn Sie die Anzahl der versteckten Filter oder Neuronen erhöhen, um den Leoparden Platz zu bieten, riskieren Sie, Elefanten zu überziehen.
Das Hauptproblem ist, ob Sie genügend Leopardbilder haben, um sie vom Rest der Eingabe zu unterscheiden. Wenn ja, und wenn Sie die Trainingsdaten so laden, dass die Leoparden in den ersten 200-300 Fotos eine gute Balance bilden, dann hat das letztgenannte Training für Elefanten einen geringeren Einfluss auf die "entdeckten" Merkmale. Dies beeinflusst jedoch die Trainingsgeschwindigkeit mehr als die Genauigkeit.