10

Obwohl beide der obigen Verfahren eine bessere Punktzahl für eine bessere Nähe der Vorhersage bereitstellen, wird immer noch die Kreuz-Entropie bevorzugt. Ist es in jedem Fall oder gibt es einige besondere Szenarien, in denen wir Kreuz-Entropie gegenüber MSE bevorzugen?Warum wird die Cross-Entropie-Methode gegenüber dem mittleren quadratischen Fehler bevorzugt? In welchen Fällen hält dies nicht stand?

+0

Siehe http://heliosphan.org/cross-entropy.html und http://heliosphan.org/generative-models.html – redcalx

Antwort

17

Kreuz-Entropie wird für Klassifizierung bevorzugt, während mittlere quadratische Fehler ist eine der besten Möglichkeiten ist für Regression. Dies ergibt sich direkt aus der Aussage der Probleme selbst - bei der Klassifizierung arbeiten Sie mit sehr speziellen Mengen möglicher Ausgabewerte, daher ist MSE schlecht definiert (da es diese Art von Wissen nicht aufweist, werden Fehler somit in inkompatibler Weise bestraft). Zum besseren Verständnis der Phänomene zu verstehen, ist es gut, die Beziehungen zwischen

  1. Kreuzentropie
  2. logistischer Regression (binäre Kreuzentropie)
  3. lineare Regression (MSE) zu folgen und zu verstehen

Sie werden feststellen, dass beide als Maximum-Likelihood-Schätzer angesehen werden können, einfach mit unterschiedlichen Annahmen über die abhängige Variable.

+1

Könnten Sie bitte näher auf "Annahmen über die abhängige Variable" eingehen? – yuefengz

+0

@Fake - wie Duc in der separaten Antwort darauf hingewiesen hat, geht die logistische Regression von einer Binomialverteilung (oder Multinomial im verallgemeinerten Fall von Kreuzentropie und Softmax) der abhängigen Variablen aus, während die lineare Regression eine lineare Funktion der Variablen plus annimmt IID sampelte Rauschen von einem 0-Mittelwert-Gauss-Rauschen mit fester Varianz. – lejlot

9

Wenn Sie die Kostenfunktion vom Aspekt der Wahrscheinlichkeit und Verteilung ableiten, können Sie beobachten, dass MSE auftritt, wenn Sie annehmen, dass der Fehler der Normalverteilung und der Entropie folgt, wenn Sie eine Binomialverteilung annehmen. Es bedeutet, dass Sie bei der Verwendung von MSE implizit eine Regression (Schätzung) durchführen und bei der Verwendung von CE eine Klassifizierung vornehmen. Hoffe es hilft ein bisschen.

2

Wenn Sie zum Beispiel eine logistische Regression durchführen, verwenden Sie die Sigmoid-Funktion und den Gradientenabfall, um das Problem zu lösen. Wenn Sie dies tun und MSE für die Kostenfunktion verwenden, führt dies zu einem nicht-konvexen Problem, bei dem Sie lokale Minima finieren. Die Verwendung der Kreuz-Entropie führt zu einem konvexen Problem, bei dem Sie die optimale Lösung finden.

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

Es gibt auch eine interessante Analyse hier: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/