2016-05-14 18 views
1

Kann mir jemand eine klare und einfache Definition der maximalen Entropieklassifikation geben? Es wäre sehr hilfreich, wenn jemand eine klare Analogie liefern könnte, während ich mich bemühe, es zu verstehen.Was ist maximale Entropie?

Antwort

1

"Maximale Entropie" ist gleichbedeutend mit "am wenigsten informativ". Sie würden keinen Klassifikator wollen, der am wenigsten informativ ist. Es bezieht sich darauf, wie die Prioren eingerichtet sind. Ehrlich gesagt, "Maximum Entropy Classification" ein Beispiel für die Verwendung von Schlagworten.

Für ein Beispiel eines nicht informativen Prior, betrachte ein sechsseitiges Objekt. Die Wahrscheinlichkeit, dass ein bestimmtes Gesicht erscheint, wenn das Objekt geworfen wird, ist 1/6. Dies wäre dein Anfangsprior. Es ist am wenigsten informativ. Sie würden wirklich nicht mit etwas anderem beginnen wollen, oder Sie werden spätere Berechnungen beeinflussen. Natürlich, wenn Sie wissen, dass eine Seite öfter erscheinen wird, sollten Sie das in Ihre Prioren integrieren.

Die Bayes Formel ist P (H | E) = P (E | H) P (H)/P (D) wo P (H) ist der Prior für die Hypothese und P (D) ist die Summe aller möglichen Zähler.

Für Textklassifikation, wo ein fehlendes Wort eingefügt werden soll, ist E ein gegebenes Dokument und H ist das gegebene Wort. IOW, die Hypothese ist, dass H das Wort ist, das ausgewählt werden sollte, und P (H) ist das Gewicht, das dem Wort gegeben wird.

Maximale Entropie Textklassifikation bedeutet: Beginnen Sie mit den wenigsten informativen Gewichten (Prioren) und optimieren Sie, um Gewichte zu finden, die die Wahrscheinlichkeit der Daten maximieren, das P (D). Im Wesentlichen ist es der EM-Algorithmus.

Ein einfacher Naive Bayes-Klassifikator würde annehmen, dass die vorherigen Gewichte proportional zur Anzahl der Male sein würden, die das Wort im Dokument erscheint. Dies ignoriert jedoch Korrelationen zwischen Wörtern.

Der so genannte MaxEnt Klassifikator berücksichtigt die Korrelationen.

Ich kann mir kein einfaches Beispiel vorstellen, aber ich kann mir einige Zusammenhänge vorstellen. Zum Beispiel sollte "die fehlende" in Englisch höhere Gewichtung für Substantive geben, aber ein Naive Bayes-Klassifikator könnte einem Verb das gleiche Gewicht geben, wenn seine relative Häufigkeit mit einem gegebenen Substantiv identisch wäre. Ein MaxEnt Klassifikator unter Berücksichtigung fehlt würde Substantive mehr Gewicht geben, weil sie eher im Kontext wären.