Als Referenz kann das hard sigmoid function
definiert werden anders an verschiedenen Orten. In Courbariaux et al. 2016 [1] Es ist definiert als:
σ die „harte Sigmoid“ -Funktion ist: σ (x) = Clip ((x + 1)/2, 0, 1) = max (0, min (1, (x + 1)/2))
Die Absicht ist, einen Wahrscheinlichkeitswert zu liefern (also es sein zwischen 0
und 1
) zur Verwendung in stochastischer Binarisierung neuronaler Netzwerkparameter (zB Gewicht, Zwangsaktivierungs , Gradient). Sie verwenden die Wahrscheinlichkeit p = σ(x)
, die von der harten Sigmoid-Funktion zurückgegeben wurde, um den Parameter x
auf +1
mit p
Wahrscheinlichkeit, oder -1
mit Wahrscheinlichkeit 1-p
.
[1] https://arxiv.org/abs/1602.02830 - "Binarisierungs- Neuronale Netze: Training Tiefe Neuronale Netze mit Gewichten und Aktivierungen Constrained auf +1 oder -1", Matthieu Courbariaux, Itay Hubara, Daniel Soudry, Ran El-Yaniv, Yoshua Bengio, (Vorgelegt am 9. Februar 2016 (v1), zuletzt 17. März 2016 überarbeitet (diese Version, v3))
ist es max (0, min (1, (x + 1)/2)) –