2016-07-10 3 views
2

Ich sehe viele Implementierungen GIS oder IIS verwenden, um das maximale Entropiemodell zu trainieren. Können wir die Gradientenabstiegsmethode verwenden? Wenn wir es verwenden können, warum die meisten Tutorial direkt GIS oder IIS-Methode sagen, aber zeigen Sie nicht die einfache Gradienten-Desent-Methode, um maximale Entropie-Modell zu trainieren? Wie wir wissen, ist die Softmax-Regression gleichbedeutend mit dem Maximalmodell, aber ich habe niemals GIS oder IIS in Softmax gehört. Warum? Gibt es einen Spielzeug-Code, der ein einfaches Gradienten-Desent-Verfahren verwendet, um das maximale Modell zu trainieren? Ich denke, es ist einfach, einen Spielzeugcode zu implementieren, die Ableitung berechnet einfach die empirische Erwartung und die Modellerwartung.Können wir die Methode des Gradientenabfalls im Maximumentropiemodell verwenden?

Antwort

1

Das „maximale Entropie-Modell“ ist ein schlecht definierte Begriff, der die Entropie maximzie Dutzende von Ansätzen beschreiben kann. wenn Sie die bekanntesten „MaxEnt“ beziehen sich jedoch dann es ist nur logistische Regression, die kann und oft mit Gradientenabfallsaktualisierung gelöst. Klassische Feedforward-Netzwerke verwenden darüber hinaus logistische Regressionskosten (also maximale Entropiekosten) in der letzten Schicht und sie werden ebenfalls mit SGD gelöst.

Um generell zu beantworten - jedes Modell, das mit GD gelernt kann ein Kosten differenzierbar in Parametern werden. Zum Beispiel kann SVM mit GD erlernt werden (obwohl dies normalerweise nicht der Fall ist, da wir effizientere Methoden haben, die einige spezifische Merkmale von SVM ausnutzen).

doch wieder bedeutet nicht, wie GD ist sehr generisches Werkzeug, „sollte“ „können gelöst werden“, welche Probleme Merkmale (zB Krümmung etc.) ausnutzen nicht. Iterative Skalierungsmethoden sind einfach besser für ein bestimmtes Optimierungsproblem von MaxEnt geeignet, da wir viel mehr über MaxEnt-Kosten wissen, dass es differenzierbar ist und eine einzige Lösung bietet.

Siehe Berkley lecture für viele Details und Schritt für Schritt Einführung in vielen möglichen Ansätzen.

+0

Danke. Deine Antwort hilft mir sehr. Ich wundere mich am meisten logistische Regression Tutorial beschreibt die Gradienten-Desent-Methode, aber Maxent-Modell nicht. Es macht mich verwirrt, ob wir die Gradientenmethode im Maximalmodell verwenden können oder nicht. Von dir antwortest und meine Gedanken können wir tatsächlich ein Modell bauen, benutze es, obwohl es bessere Methoden gibt. – sbsbsb945

+0

Genau. Die Unterschiede ergeben sich auch aus der Tatsache, dass NLP- und Statistik-Optimierungs-Communities teilweise unabhängig voneinander entwickelt wurden und somit eigene "Favoriten" haben. – lejlot